Die traurigste Gleichung in Data Science

Bild



Taschentücher auffüllen! Jetzt werde ich Ihnen die ganze Wahrheit über Statistik und Datenwissenschaft sagen. Du wirst Tränen in deinen Augen haben, das verspreche ich dir.



SCHLUSSFOLGERUNG = DATEN + ANNAHMEN. Mit anderen Worten, Statistiken sagen nicht die Wahrheit.



Verbreitete Mythen



Die folgenden Missverständnisse werden oft gehört:



  • "Wenn ich die richtigen Gleichungen finde, kann ich etwas lernen, das jetzt niemand weiß."
  • "Wenn ich meinen Daten Mathematik hinzufüge, kann ich die Unsicherheit verringern."
  • "Statistiken können Daten in Wahrheit verwandeln!"


Das klingt alles nach Märchen, nicht wahr? Weil sie es sind.



Bittere Wahrheit



Es gibt keine Magie auf der Welt, die dir hilft, etwas aus dem Nichts zu erschaffen. Vergiss es. Statistiken über einen anderen. Nehmen Sie mein Wort dafür als Statistik. (Als Bonus spart Ihnen dieser Artikel eine Menge Zeit bei der Jagd nach diesem Wunschtraum .)



Leider werden viele Scharlatane versuchen, Sie anders zu überzeugen. Sie werden den Standardtrick verwenden: "Sie kennen die Gleichungen nicht, mit denen ich Sie überschüttet habe, also geben Sie meinen Vorteil zu und tun Sie, was ich sage!"



Verlieben Sie sich nicht in die Worte dieser Poser.



Bild Über den Autor: Cassie Kozyrkov ist eine südafrikanische Daten- und Statistikerin. Sie gründete Decision Intelligence bei Google, wo sie als Chief Scientist tätig ist.




Wiederholen Sie nicht das Schicksal von Ikarus



Stellen Sie sich statistische Inferenz (kurz „Statistik“ ) als einen Sprung von dem, was wir wissen (unsere üblichen Daten) zu dem, was wir nicht wissen (unsere Bevölkerungsdimension), vor.



In der Statistik wissen Sie nicht, was Sie wissen möchten.
Sie möchten vielleicht Fakten über morgen, aber Sie können nur Schlussfolgerungen ziehen, die auf gestern basieren. (Es ist so ärgerlich, wenn wir uns nicht an die Zukunft erinnern, oder?) Sie möchten vielleicht wissen, was alle potenziellen Benutzer über Ihr Produkt denken, aber Sie können nur hundert fragen. Dann bekommen Sie Unsicherheit!



Das ist keine Magie, das ist Spekulation



Wie kann man von dem, was Sie wissen, zu dem springen, was Sie nicht wissen? Sie brauchen eine Brücke, um diesen Abgrund zu überbrücken. Und der Name dieser Brücke ist Spekulation. Ich möchte Sie an die schmerzhafteste Gleichung in der Datenwissenschaft erinnern: DATEN + ANNAHMEN = PROGNOSE.



DATEN + ANNAHMEN = PROGNOSE.
(Sie können das Wort "Vorhersage" leicht durch "Schlussfolgerungen" oder "Vorhersagen" ersetzen, wenn Sie dies bevorzugen. Es geht um dasselbe: eine Aussage über etwas, das Sie nicht sicher wissen.)



Was ist Annahme?



Wenn wir alle Fakten kennen würden (und sicher wären, dass es sich um harte Fakten handelt), würden wir keine Annahmen (oder Statistiken) benötigen. Annahmen sind hässliche Teile, mit denen Sie die Lücke zwischen dem, was Sie wissen und dem, was Sie wissen möchten, schließen. Dies sind Cheats, die Sie verwenden müssen, wenn Sie die Zahlen zur Konvergenz benötigen, aber die Daten nicht ausreichen.



Annahmen sind die hässlichen Patches, die Sie an Stellen anwenden, an denen keine Informationen vorliegen.
Wie würde ich es unverblümt sagen? Annahme ist keine Tatsache, es ist Unsinn, den Sie erfinden, weil Sie nicht genug Informationen haben. Wenn Sie Menschen mit Ihren sehr präzisen Intervallen oft herabsetzen, denken Sie daran, dass es zu voreilig ist zu sagen, dass das, was auf Annahmen basiert, wahr ist. Stellen Sie sich Statistiken besser als Entscheidungshilfe vor. Dieses Tool ist nicht perfekt, aber immer noch besser als nichts (in bestimmten Situationen).



Statistik ist Ihr Versuch, in einer Welt der Unsicherheit alles zu tun, was Sie können.
Annahmen - Annahmen in Afrika. Sie werden nicht durch die Welle eines Zauberstabs zu Tatsachen.



Annahmen zu treffen ist Teil von Entscheidungen



Zeigen Sie mir jede Entscheidung, die ohne Spekulation getroffen wurde. Ich kann für Sie leicht viele implizite Annahmen auflisten, die Sie im wirklichen Leben treffen, ohne darüber nachzudenken.



Beispiele: Wenn Sie eine Zeitung lesen, gehen Sie davon aus, dass alle Fakten überprüft wurden? Haben Sie bei Ihren Plänen für 2020 angenommen, dass es keine globale Pandemie geben wird? Wenn Sie die Daten analysiert haben, haben Sie angenommen, dass die Daten fehlerfrei aufgezeichnet wurden? Haben Sie angenommen, dass Ihr Zufallsgenerator zufällige Ergebnisse liefert? (Sie sind normalerweise nicht zufällig.) Wenn Sie sich für einen Online-Kauf entscheiden, gehen Sie davon aus, dass Ihnen der richtige Betrag berechnet wird? Was ist mit deinem letzten Snack? Haben Sie angenommen, dass er nicht vergiftet wurde? Wussten Sie, als Sie das Medikament einnahmen, über seine langfristigen Auswirkungen Bescheid oder ... haben Sie damit gerechnet?



Ob Sie es mögen oder nicht, Annahmen sind Teil der Entscheidungsfindung.


Ob Sie es mögen oder nicht, Annahmen sind immer Teil der Entscheidungsfindung. Eingriffe in reale Daten sollten aus vielen aufgezeichneten Annahmen bestehen. Gleichzeitig müssen Datenwissenschaftler alle Ecken beschreiben, um die sie gehen müssen.



Selbst wenn Sie auf Statistiken verzichten, verwenden Sie wahrscheinlich Annahmen, um zu entscheiden, wie Sie vorgehen möchten. Zu Ihrer eigenen Sicherheit müssen Sie wissen, auf welchen Annahmen Ihre Entscheidungen beruhen.



Wie die "Magie" der Statistik funktioniert



In der Statistik gibt es viele Tools, mit denen Sie Annahmen formulieren und mit Beweisen kombinieren können. So entstehen kluge Entscheidungen. (Hier sehen Sie meine 8-minütige Einführung in die Statistik.)



Es ist absurd zu erwarten, dass die Analyse, einschließlich Unsicherheit und Wahrscheinlichkeit, mit einem Großbuchstaben „P“ zur Quelle der Wahrheit wird.
Ja, so funktioniert statistische Magie. Sie wählen aus, mit welchen Annahmen Sie leben möchten, und kombinieren sie dann mit den Daten. Auf der Grundlage dieser unheiligen Vereinigung treffen Sie intelligente Entscheidungen. Das sind alle Statistiken.



Bild



Aus diesem Grund kann eine Analyse, einschließlich Unsicherheit und Wahrscheinlichkeit, mit einem Großbuchstaben „P“ niemals zur Quelle der Wahrheit werden. Es gibt keine geheime dunkle Magie, die dies für Sie tut.



Zwei Personen können aufgrund derselben Daten zu völlig unterschiedlichen Schlussfolgerungen kommen! Es reicht ihnen, unterschiedliche Annahmen zu treffen.
Aus dem gleichen Grund können zwei Personen aufgrund derselben Daten zu völlig unterschiedlichen Schlussfolgerungen kommen! Es reicht ihnen, unterschiedliche Annahmen zu treffen. Statistiken bieten Ihnen ein Tool, mit dem Sie fundiertere Entscheidungen treffen können. Es gibt jedoch keine einzige Regel für die Verwendung. Es ist ein persönliches Entscheidungsinstrument.



Wie gut Sie recherchieren, hängt davon ab, wie gut Ihre Annahmen sind.



Was ist mit der Wissenschaft?



Was passiert, wenn ein Wissenschaftler Statistiken verwendet, um Schlussfolgerungen zu ziehen? Er bildet sich einfach eine Meinung und beschließt, sie mit der ganzen Welt zu teilen. Das ist nicht schlecht, Wissenschaftler müssen von Zeit zu Zeit durch Willen Schlussfolgerungen ziehen, nicht durch Willen, das ist ihre Aufgabe. Ich nehme an, dass diese Schlussfolgerungen manchmal beachtet werden können.



Durch Willen nicht durch Willen müssen Wissenschaftler regelmäßig statistische Schlussfolgerungen ziehen, dies ist ihre Aufgabe.
Ich höre gerne Ratschläge von Menschen, die mehr Informationen und Erfahrungen haben als ich, aber ich erlaube mir nie, Meinungen mit Fakten zu verwechseln. Es gibt Wissenschaftler, die sich mit Wahrscheinlichkeit gut auskennen und damit arbeiten. Ich habe mich jedoch auch mit Wissenschaftlern getroffen, die so viele statistische Fehler gemacht haben, dass Sie sie niemals aus Ihrem Leben herausholen werden. Meinungen können (und sollten) Menschen nicht beeinflussen, die nicht bereit sind, Annahmen für sich selbst zu formulieren. Diese Meinungen wurden durch eine Kombination von Beweisen und nicht überprüften Annahmen erhalten. Sie können nicht als kompetent angesehen werden.



Zusammenfassung



Stellen Sie sich Statistik als eine Wissenschaft vor, die Ihnen helfen kann, Entscheidungen zu treffen, wenn Sie sich über etwas nicht sicher sind. Dies ist ein Rahmen, der Ihnen hilft, fundierte Entscheidungen mit einem Mangel an Informationen zu treffen. Es gibt keinen einzigen richtigen Weg, um Statistiken zu verwenden.



Nein, sie gibt Ihnen nicht die notwendigen Fakten. Sie gibt Ihnen, was Sie brauchen, um mit einem Mangel an Fakten umzugehen. Die Statistik soll Ihnen helfen, in einer Welt der Unsicherheit Ihr Bestes zu geben.



Sie müssen nur Annahmen treffen.



Übersetzung: Diana Sheremyeva



Bild



Erfahren Sie mehr darüber, wie Sie einen begehrten Beruf von Grund auf neu erlernen oder Ihre Fähigkeiten und Ihr Gehalt verbessern können, indem Sie bezahlte SkillFactory-Online-Kurse absolvieren:











All Articles