Wie die New York Times Artikelüberschriften testet

Die New York Times ist keine lachende Angelegenheit. Als sie zu erklären , ihre Werbekunden , ist die New York Times die Nummer eins der Nachrichtenquelle für vermögende junge Vordenker.







Diese Veröffentlichung zieht jedoch im Gegensatz zu beispielsweise Fox News selten Aufmerksamkeit auf sich. Und dafür gibt es gute Gründe! Fox News ist ein absurdes Theater mit Clowns, und sie verdienen die Kritik, die sie bekommen.



Aber ich bin neugierig auf die New York Times. Sie repräsentieren die Welt um sie herum in einem bestimmten Licht, und ihre Vision (zumindest in meinen Kreisen) wird, obwohl man ihr zustimmen oder nicht zustimmen kann, als etwas angesehen, das standardmäßig akzeptiert wird.



Ich wollte mir diese Vision genauer ansehen. Daher werde ich in den nächsten Wochen eine Reihe von Artikeln in der New York Times veröffentlichen, in denen Daten analysiert werden, die auf der Homepage ihrer Website mithilfe von Web Scraping sowie über die offizielle API gesammelt wurden . Der erste Artikel konzentriert sich ausschließlich auf A / B-Tests: Wie die New York Times die Schlagzeilen von Artikeln testet und wie sie sich im Laufe der Zeit ändern.



A / B-Tests und die New York Times



Schauen Sie, es ist 2021, ich wäre eher schockiert, wenn sich herausstellen würde, dass die New York Times in keiner Weise Schlagzeilen testet. Ja, sie selbst sprechen im Klartext darüber :



„Darüber hinaus übt die Times das sogenannte A / B-Testen digitaler Versionen von Überschriften auf Inhalte auf der Startseite aus: Etwa eine halbe Stunde lang wird eine Überschrift der Hälfte der Leser und eine andere alternative Überschrift der anderen angezeigt Hälfte. Am Ende des Tests hinterlässt The Times die Überschrift, die die meisten Leser anzieht. "


Aber ich hatte immer noch Fragen:



  • Wie viele Artikel durchlaufen A / B-Tests?
  • Wie viele Titel werden für jeden wiederholt?
  • Hat das irgendeinen Sinn?
  • Wie unterschiedlich sind die Überschriften?


Methodik



Ich habe ein Skript geschrieben, das Folgendes ausführt:



  1. Scraping der Homepage der New York Times-Website.
  2. Ruft alle Header aus dem Datensatz ab.
  3. Verknüpft sie mit Artikelmetadaten, die in der offiziellen Times-API bereitgestellt werden
  4. Schiebt alles in den Tisch


Das Skript wird alle fünf Minuten ausgeführt. Ich habe meine Beobachtung am 13. Februar begonnen. Nachfolgend sind die Schlussfolgerungen aufgeführt, die auf den Daten basieren, die über drei Wochen gesammelt wurden.



Ergebnisse



In voller Übereinstimmung mit ihrer Aussage führt die New York Times A / B-Tests von Artikelüberschriften durch. Irgendwo in 29% der Materialien haben mehrere Titel. Die maximale Anzahl von Überschriften für einen Artikel beträgt derzeit acht .







In vielen Fällen beschränken sich Änderungen auf kleinere Korrekturen: Auf der New York Times-Website kommt es häufig vor, dass ein Satzzeichen- oder Rechtschreibfehler nach der Veröffentlichung korrigiert wird. Und es kommt auch vor, dass Texter anscheinend nicht entscheiden können, ob sie eine Entschuldigung mit einem Großbuchstaben oder mit einem kleinen schreiben sollen?







In anderen Fällen ändert die New York Times ihre Überschrift, sobald neue Informationen verfügbar werden. Hier ist eine spannende Geschichte , die aus einer Reihe von Titeln besteht:







  1. SpaceX wird im Testmodus einen weiteren Prototyp einer Rakete zum Mars starten (10%)
  2. SpaceX hat den Test eines Prototyps einer Rakete ausgesetzt, um zum Mars zu fliegen (1%)
  3. SpaceX wird einen weiteren Versuch unternehmen, einen Prototyp einer Rakete zum Mars zu starten (13%).
  4. Die Prototyp-Rakete von SpaceX ging zum Mars, landete und explodierte (14%)
  5. Der Prototyp einer Rakete von SpaceX konnte diesmal vor der Explosion auf dem Mars landen (24%)
  6. Diesmal gelingt es der Prototyp-Rakete von SpaceX, vor der Explosion auf dem Mars zu landen (10%)
  7. Die Prototyp-Rakete von SpaceX explodierte nach der Landung auf dem Mars (27%)


Aber zum größten Teil ist die Änderung der Überschrift eindeutig das Ergebnis von A / B-Tests, die durchgeführt wurden, um mehr Klicks zu sammeln. Hier ist zum Beispiel ein Artikel über Biden und seine Managementpolitik - sein Titel hat sich radikal geändert.







  1. Ruhige Sprache und umfangreiches Programm (7%)
  2. Biden ist gegen Trump und es funktioniert (93%)


Das einzige Ziel, das diese Ersetzungen verfolgen können, ist die Steigerung des Engagements. Und es funktioniert! Dieser Artikel wurde nur wenige Stunden nach der Änderung der Überschrift heiß (und dies bestätigt meine Hypothese, dass Liberale gerne etwas über Trump lesen).



Aber nicht alle A / B-Tests sind erfolgreich. Hier ist ein Beispiel für einen A / B-Test , der eindeutig fehlgeschlagen ist. Möglicherweise müssen Sie Ihre Augen anstrengen, um einen winzigen blauen Punkt auf rotem Grund zu sehen.







  1. Haben Sie gesehen, wie viele Israelis gerade die VAE besucht haben? (einhundert%)
  2. Josaphat nervös! Haben Sie gesehen, wie viele Israelis gerade die VAE besucht haben? (0%)


Ich hoffe, dieser Fehler hat den seltsamen Redakteur, der an Josaphat the Jumper dachte, nicht gedämpft. Was der New York Times schmerzlich fehlt, sind Hinweise auf den Bugs Bunny-Cartoon .



Aber im Allgemeinen gibt es ein Muster in den Änderungen: Im Laufe der Zeit klingen Schlagzeilen tendenziell dramatischer. Nehmen Sie zum Beispiel einen Artikel über Cuomo und den Skandal um sein Sexualleben:







  1. Cuomo wird wegen seines Plans zur Untersuchung von Belästigungsvorwürfen angegriffen (6%)
  2. Von Angriffen belagert, ändert Cuomo seinen Plan zur Untersuchung von Belästigungsvorwürfen (25%)
  3. Cuomo wird von Belästigungsvorwürfen belagert und entschuldigt sich (69%)


Nach dem ersten Ersatz stellt sich heraus, dass Cuomo nicht nur angegriffen, sondern buchstäblich belagert wird, und nach dem zweiten wechselt er abrupt von einer einfachen Überarbeitung der Pläne zu einer Entschuldigung. Darüber hinaus hat die Taktik funktioniert: In den Grafiken können Sie sehen, wie der Artikel bei der Anpassung des Titels in der Zuschauerbewertung immer höher steigt.



In dem Artikel über Trumps Rede auf der konservativen Konferenz wird alles noch brandaktueller:







  1. Trump appelliert an Konservative und plant, die Republikanische Partei zu führen (3%)
  2. Trump enthüllt Pläne, die Republikanische Partei auf einer konservativen Konferenz zu führen (7%)
  3. Trump proklamiert sich als republikanischer Führer in einer Rede auf einer konservativen Konferenz (2%)
  4. Trump deutet auf die dritte Amtszeit auf der konservativen Konferenz hin und verspricht, die Republikaner zur Einheit zu bringen (4%)
  5. Trump verspricht, die Republikaner zur Einheit zu bringen, und beschuldigt dann diejenigen, die die Amtsenthebung unterstützt haben (6%)
  6. Trump enthüllt republikanische Opfer auf einer konservativen Konferenz, ein Warnschuss für die gesamte Partei (79%)


Alles beginnt damit, dass Trump mit den Konservativen spricht und sich selbst zum Führer der Republikanischen Partei erklärt, aber die letzte Überschrift enthält die Liste der Opfer und Warnschüsse. Und - wer hätte das bezweifelt - aufgrund all dieses Pathos hebt der Artikel ab und fällt in die Zahl der "meistgelesenen".



Nun, das letzte Beispiel ist ein sensationeller Artikel, der auf einem Interview basiert, das Meghan Markle Oprah gegeben hat:







  1. , – , (3%)
  2. , – , (1%)
  3. , (80%)
  4. « »: , (16%)


Ich war nicht einmal zu faul, um dieses zweistündige Interview zu sehen, und ich kann Ihnen sagen, dass die ersten beiden Überschriften den Inhalt um ein Vielfaches besser widerspiegeln. Ja, Meghan gibt zu, Selbstmordgedanken zu haben, aber dies ist eine fünfminütige Pause in einem Interview, in dem viele andere Dinge gesagt wurden. Zum Beispiel erwähnt keine Überschrift die Auswirkungen von Rassismus auf Meghans Geisteszustand - und diesem Thema wurde viel mehr Zeit als Selbstmordgedanken eingeräumt.



Gibt es einen Effekt?



Die Artikel, auf die ich oben eingegangen bin, haben dank A / B-Tests eine Menge zusätzlicher Aufmerksamkeit erregt. Aber was ist mit den anderen Materialien?



Ich habe einige Berechnungen durchgeführt und festgestellt, dass bei Artikeln, die das Testverfahren durchlaufen, die Wahrscheinlichkeit, "heiß" zu sein, um 80% steigt. Es ist auch nicht überraschend, dass die Gesamtzahl der getesteten Überschriften mit einem erhöhten Engagement korreliert .







Haftungsausschluss: Es gibt eine Korrelation zwischen der Anzahl der Überschriften und dem Engagement, aber es ist schwierig zu bestimmen, welche davon die Ursache und welche die Wirkung ist. Meiner Meinung nach ist es logisch anzunehmen, dass je stärker unterschiedliche Überschriftenvarianten getestet werden, desto wahrscheinlicher ist es, dass Menschen in sozialen Medien lesen, mögen oder teilen. Andererseits ist es möglich, dass die New York Times mehr Zeit damit verbringt, Artikel zu polieren, die bereits das öffentliche Interesse geweckt haben. Obwohl ich im Rahmen privater Beobachtungen sagen muss, dass viele der Artikel, die ich durchgesehen habe, eine Reihe von Schlagzeilen durchliefen, noch bevor sie die Führung übernahmen.



Was habe ich gelernt?



Die New York Times führt A / B-Überschriften-Tests durch, um das Engagement der Leser zu erhöhen



.



Insgesamt ist das Testen nicht weit verbreitet.



Eigentlich bin ich ein wenig überrascht, dass die Tests eine so kleine Anzahl von Überschriften abdecken. Bei den meisten Artikeln werden Tests überhaupt nicht angewendet, und wenn sie angewendet werden, werden in der Regel nur zwei Überschriften verwendet.



Ich ging vage davon aus, dass die Redakteure der New York Times von den Mitarbeitern verlangten, alle Artikel mit sechs Überschriften einzureichen, und ein automatisiertes System würde alle sechs in der ersten Stunde ausführen. Dies ist jedoch offensichtlich nicht der Fall, obwohl die Daten darauf hindeuten, dass aggressivere A / B-Tests zu mehr Engagement geführt hätten.



Eine mögliche Erklärung: 62% der Gewinne der New York Times stammen aus Abonnements und nur 27% aus Werbung (und diese Zahl sinkt jedes Jahr). Dies bedeutet, dass Ansichten nicht so wichtig sind wie Abonnements - und wenn es auf der Startseite einen fortlaufenden Clickbait gibt, kann dies potenzielle Abonnenten abschrecken.



Und doch sind das Ergebnis Schlagzeilen, die die Emotionen treffen.



Die New York Times beugt sich natürlich nicht auf das Niveau von BuzzFeed, aber es sollte dennoch bedacht werden, dass ihre Sicht der Dinge auch nicht als neutral bezeichnet werden kann. Wie die obigen Beispiele zeigen, geben Überschriften nach A / B-Tests den Ereignissen eine viel dramatischere Farbe als sie tatsächlich sind. Diejenigen, die diese Ressource ständig lesen, haben möglicherweise den Eindruck, dass die Welt beängstigender und unberechenbarer ist als sie wirklich ist.



Des Weiteren



Im nächsten Artikel werde ich die Homepage der New York Times-Website untersuchen, nämlich:



  • Wie lange hängen die Artikel dort?
  • Welche Artikel verzögern sich dort und welche gehen schnell
  • Welche Art von Inhalten erscheint am häufigsten auf der Homepage und welche ist am unwahrscheinlichsten
  • Wie viel Zeit auf der Homepage verbracht wird, hängt mit dem allgemeinen Engagement zusammen
  • Und andere interessante Dinge.




Daten



Wenn meine kostenlose EC2-Instanz noch aktiv ist, können Sie die Header- Daten selbst in Echtzeit verfolgen . Beachten Sie zwei Dinge: Die Daten werden ab dem 13. Februar 2021 angezeigt und kommen mit einer leichten Verzögerung an, da der Cache alle 30 Minuten aktualisiert wird.



All Articles