Nun, nur ein Witz und das ist genug. Wir hoffen, alle haben gelacht und niemand hat zu viel Angst bekommen. Aber warte, wir sind immer noch fertig. Durch die Konfiguration des Systems, um auf jede Command + C-Eingabe zu reagieren, wurde uns klar, dass wir die Möglichkeit hatten, weitere Informationen darüber zu erhalten, was die Benutzer auf der Site tun. Wir haben jede Kopie von Stack Overflow zwei Wochen lang erfolgreich erfasst, und hier ist, was dabei herausgekommen ist.
Du bist nicht allein
Jede vierte Person, die eine Fragenseite zu Stack Overflow öffnet, kopiert innerhalb der ersten fünf Minuten nach dem Besuch der Website etwas davon. Insgesamt haben wir zwischen dem 26. März und dem 9. April 40.623.987 Exemplare von 7.305.042 Posts gezählt. Menschen kopieren Text aus Antworten etwa zehnmal häufiger als aus Fragen und etwa fünfunddreißig Mal häufiger als aus Kommentaren. Codeblöcke werden zehnmal häufiger kopiert als der Begleittext, und das Kopieren von Seiten mit Fragen ohne akzeptierte Antworten ist überraschenderweise aktiver als dort, wo sie sich befinden.
Wenn Sie sich jemals geschämt haben, vorgefertigten Code zu kopieren, anstatt ihn von Grund auf neu zu schreiben, lassen Sie Ihr Gewissen ruhig sein! Warum das Rad neu erfinden, wenn jemand bereits alle Schwierigkeiten für Sie gelöst hat? Wir nennen dies Wiederverwendung - was einst von jemand anderem gelernt, erschaffen und bewiesen wurde, wird Ihnen jetzt dienen. Und daran ist nichts auszusetzen: Auf diese Weise können Sie schneller lernen, Arbeitscode schneller abrufen und sich weniger Sorgen machen. Unsere gesamte Website basiert auf dem Konzept der Wiederverwendung von Wissen. Die Stack Overflow-Community ist vor allem wegen ihres altruistischen Ansatzes für das Mentoring stark.
Es ist völlig zulässig, auf die Schultern von Riesen zu klettern und die Lektionen, die sie vor Ihnen gelernt haben, auszuleihen, um etwas Neues und Wertvolles zu schaffen. Trotzdem lohnt es sich, beim Kopieren einige bewährte Methoden zu befolgen, um versehentlich Fehler oder Sicherheitslücken zu vermeiden. Stellen Sie daher sicher, dass Sie alles richtig machen, bevor Sie ein Stück greifen und es einfügen. Natürlich dürfen wir nicht vergessen, dass einige Codefragmente nur mit Lizenzen verwendet werden können. Ansonsten unterstützen wir alle, die von der Arbeit der Community profitieren möchten.
Als jemand, der jahrelang ohne Gewissensbisse Code aus Stack Overflow herausgerissen hat, war ich nicht überrascht, als Kopierereignisse in Millionenhöhe auftauchten. Eine andere Sache überraschte mich: Wie viele Antworten auf verschiedene Fragen gaben uns diese Informationen. Wie viele Personen kopieren tatsächlich Inhalte aus dem Stapelüberlauf? Nur den Code oder etwas anderes kopieren? Kopieren Sie Fragen aktiver mit akzeptierten Antworten? Um unserer Analyse eine Richtung zu geben, haben mein Team und ich eine Liste von Fragen erstellt, die uns interessierten. Alles begann mit einem einfachen Witz und wurde zu einer ernsthaften Studie, die viele Dinge beleuchtete und zahlreiche Diskussionen über die zukünftige Entwicklung und Verbesserung der Plattform anregte.
Daten
Mit einem hausgemachten Web-Tracking-Tool haben wir benutzerdefinierte Ereignisse erstellt, die jedes Mal aufgezeichnet werden, wenn ein Benutzer etwas von der Website kopiert. Dank dieser Ereignisse konnten wir eine Vielzahl von Merkmalen verfolgen: Tags, Inhaltstyp (Frage, Antwort oder Kommentar, Codeblock oder Klartext), Ruf der kopierenden Person, Beitragsbewertung, Region, Beitragsstatus - akzeptiert oder nicht . Im Allgemeinen haben wir fast alles gespeichert, außer dem Text selbst, der kopiert wurde.
Wir haben die Daten für volle zwei Wochen vom 26. März bis zum 9. April gesammelt. Alle folgenden Berechnungen beziehen sich auf das Benutzerverhalten in diesem Zeitraum.
Die Ergebnisse auf höchster Ebene bestätigten, was vor langer Zeit wie ein Witz klang: Bei Stack Overflow macht jeder das, was er kopiert. Wir waren auch schnell davon überzeugt, dass das Kopieren als eine Art von Verhalten denselben Mustern folgt, die bereits für den Site-Verkehr identifiziert wurden. Menschen kopieren am aktivsten an Wochentagen während der Arbeitszeit. Die Regionen, in denen unsere Website am beliebtesten ist, weisen die meisten Exemplare auf: Asien - 33%, Europa - 30% und Nordamerika - 26%. Und schließlich sind 86% der kopierenden Benutzer anonyme Benutzer (dh sie haben keinen Ruf). Als wir uns eingehender mit der Frage befassten, wer was kopiert, wurde es interessanter.
Ist ein hohes Ansehen mit einem starken Kopieren zu vergleichen?
Zunächst wollten wir überprüfen: Werden sich Benutzer mit einem hohen Ansehen als am aktivsten beim Kopieren herausstellen?
Aus der Grafik ist ersichtlich, dass der größte Teil des Kopierens von Benutzern ohne Reputation durchgeführt wird - das heißt, anonym, da jeder, der ein Konto erstellt, sofort ein Plus erhält. Möglicherweise treten einige dieser Ereignisse bei Benutzern auf, die sich nicht bei ihrem vorhandenen Konto angemeldet haben. Dies kann leider in keiner Weise überprüft werden.
Da der Großteil unserer Benutzer ein geringes Ansehen hat, versuchen wir, die Aufteilung nach Gruppen zu entfernen, um die Daten zu normalisieren. Wenden wir uns nun nicht der Gesamtzahl der Kopien zu, sondern der Anzahl der Kopien pro Benutzer, um festzustellen, wie sich der Durchschnitt je nach Ruf unterscheidet.
Wenn Sie diese Visualisierung untersuchen, kann das folgende Muster verfolgt werden: Mit zunehmender Reputation nimmt die Anzahl der Kopien pro Benutzer ab. Die Korrelation ist vorhanden, aber nicht sehr ausgeprägt, daher kann ich nicht mit absoluter Sicherheit sagen, dass Benutzer mit einem guten oder schlechten Ruf eindeutig aktiver kopieren. Entwickler, die noch Fähigkeiten entwickeln, haben oft einen schlechten Ruf und suchen in der Regel nach Ressourcen, die den Lernprozess beschleunigen können. Wenn sie Wissen anhäufen, bauen sie ihren Ruf auf und beginnen, an Aufgaben zu arbeiten, die gut kalibrierte Lösungen erfordern - diese sind nicht immer bei Stack Overflow zu finden.
Werden akzeptierte Antworten häufiger kopiert?
Der Gedankengang hier ist folgendermaßen aufgebaut: Da die Antwort akzeptiert wurde, bedeutet dies, dass sie wahrscheinlich die beste ist, und wenn ja, sollte sie mit verdoppelter Energie kopiert werden. Wenn wir uns jedoch die Statistiken ansehen, werden wir feststellen, dass in 52,4% der Fälle nicht akzeptierte Antworten kopiert werden. Wenn wir jedoch über Durchschnittswerte sprechen, gibt es für einen eindeutigen Beitrag mit einer akzeptierten Antwort sieben Kopien und für eine inakzeptable eine - nur fünf. Es stellt sich heraus, dass die nicht akzeptierten Beiträge mehr Kopien enthalten, die akzeptierten jedoch aktiver den gleichen Prozess der Wiederverwendung von Wissen entwickeln.
Es ist zu beachten, dass es auch einige Fragen gibt, die im Prinzip keine akzeptierten Antworten haben. Nehmen Sie zum Beispiel diese Antwort: 4.984 Unique User haben dafür gestimmt und 7.943 während unserer Recherche kopiert. Aber der Fragesteller akzeptierte ihn nicht. Und er hat auch keinen anderen akzeptiert - vielleicht hängt das irgendwie damit zusammen, dass er seit 2010 überhaupt nicht mehr auf der Seite ist. Aber viele andere hilfreiche Antworten befinden sich in derselben Position.
Werden hochrangige Beiträge aktiver kopiert?
Die akzeptierten Antworten haben also keinen Vorteil beim Kopieren, aber eine hohe Bewertung sollte definitiv einen Effekt haben, oder? Lass uns nachsehen.
Wie wir sehen können, läuft in der Kategorie der Antworten in Gruppen von ein bis tausend Stimmen alles ziemlich reibungslos. Bei Fragen erfolgt der größte Teil des Kopierens jedoch auf Posts mit einer Bewertung von eins bis fünf. Ich vermute, das liegt daran, dass die Leute sie zur erneuten Veröffentlichung kopieren, bis sie endlich eine Antwort erhalten.
Wie in der Situation mit Benutzern hat der Großteil der Beiträge auf der Website eine eher niedrige Bewertung. Lassen Sie uns zur Normalisierung sehen, wie viele Kopien pro Beitrag erstellt werden.
Hier sehen Sie deutlich, dass die Anzahl der Exemplare mit der Bewertung zunimmt. Und das ist logisch: Die Community ist eher bereit, das aufzunehmen, was bereits gute Leistungen erbracht hat.
Kopiert jemand Beiträge mit einer schlechten Bewertung?
Aber was ist mit diesen blauen Punkten, die negativ bewertete Beiträge darstellen? Warum etwas kopieren, das überhaupt niemand gutheißt? Lassen Sie uns nicht zu Schlussfolgerungen springen.
Schauen Sie sich diese Antwort an . Von allen Antworten mit einer negativen Bewertung sammelte er die maximale Anzahl von Kopien - 288 mit einer Bewertung von -2. Wenn Sie den Text lesen, werden Sie feststellen, dass er mit einer Bewertung von insgesamt 29 und 493 Exemplaren präziser ausgedrückt wird als in der beliebtesten Antwort. Auch wenn die Antwort mit einer negativen Bewertung in Bezug auf die Anzahl der Exemplare nicht die Nase vorn hatte, spielte das Prinzip des "Niasilil" hier eindeutig eine Rolle.
Von welchen Tags wird am häufigsten kopiert?
Auf diese Frage wollte ich am liebsten eine Antwort bekommen. Leider war es aufgrund des Umfangs der Studie und der Menge der verfügbaren Ressourcen nicht möglich, die verschachtelten Tags zu analysieren. Beispielsweise enthält das HTML-Tag keine Beiträge, die eine Kombination von Tags | html | css | enthalten.
Am häufigsten wurden Inhalte von den beliebtesten und aktivsten Tags auf der Website kopiert, was nicht überraschend war. Nur eines ist mir aufgefallen: Python erscheint in vier Gruppen von Tags aus den Top Ten gleichzeitig. Drei davon stehen in direktem Zusammenhang mit der Datenanalyse: | python | pandas |, | python | pandas | dataframe | und | python | matplotlib |. Ich selbst bin diesem Thema nicht gleichgültig, deshalb bin ich sehr froh, dass so viele Leute diese Werkzeuge beherrschen.
Top 10 Tags, jetzt mit Kopien pro Post
Zusätzlich zu den Tags mit der höchsten Gesamtzahl an Kopien wollte ich die Tags mit dem höchsten Verhältnis von Kopie zu Post berechnen. Ich habe einen Mindestschwellenwert von zehn Posts festgelegt, und wie Sie sehen, stellte sich heraus, dass je mehr Details in den Tags enthalten sind, desto mehr Kopien werden pro Post gesammelt.
Welche Beiträge wurden am meisten kopiert?
Nun, gehen wir weiter zu dem, was meiner Meinung nach bei vielen Neugier weckt. Welcher Beitrag hat die meisten Exemplare?
Codeblock-Antwort
Ich freue mich, Ihnen mitteilen zu können, dass der Gewinner die Antwort auf das Durchlaufen von Zeilen in einem DataFrame in Pandas mit 3.497 Stimmen und 11.829 Kopien war. Es wurde 2013 veröffentlicht und rettet immer noch jede Woche Tausende von Menschen.
Nur-Text-Antwort
Wenn es um Inhalte ohne Code geht, gibt es hier einen Beitrag zu TypeError: this.getOptions ist keine Funktion [geschlossen] mit 218 Stimmen und 1.570 Kopien. Es gibt keine Möglichkeit zu überprüfen, aber ich nehme an, sie kopieren das `sass-loader @ 10.1.1`-Snippet.
Codeblock-
Frage Unsere wichtigste Frage lautet: Wie erstelle ich eine HTML-Schaltfläche, die sich wie ein Link verhält? - 2.147 Stimmen und 3.665 Exemplare.
Nur-Text-Frage
Schließlich war die beliebteste Nicht-Code-Frage, dass Aktualisierungen abgelehnt wurden, da die Spitze Ihres aktuellen Zweigs hinter dem entfernten Gegenstück liegt - 322 Stimmen und 261 Kopien. Es gibt Schwierigkeiten damit, weil der Text viele Git-Befehle enthält, die nicht als Codeblöcke formatiert sind - vielleicht werden sie aktiv kopiert. Aber da der Text selbst, der kopiert wurde, wir nicht gespeichert haben, wird niemand jemals erfahren.
Kommentare (1)
Es ist wichtig, sich daran zu erinnern, dass es beim Stapelüberlauf nicht nur um Fragen und Antworten geht. Manchmal reicht ein vernünftiger Kommentar aus. Hier sind einige davon, die besonders aktiv kopiert wurden!
Der erste ist der absolute Anführer unter den Kommentaren auf der gesamten Website, und der zweite ist ein dunkles Pferd: Er hat nur fünf Stimmen gesammelt, belegt jedoch den sechsten Platz in Bezug auf die Anzahl der Exemplare.