
Bei der Arbeit mit Big Data können Fehler nicht vermieden werden. Sie müssen den Daten auf den Grund gehen, Prioritäten setzen, optimieren, die Daten visualisieren und die richtigen Ideen erhalten. Laut Umfragen sind 85% der Unternehmen strebt für das Datenmanagement, aber nur 37% berichtet Erfolg in diesem Bereich. In der Praxis ist es schwierig, negative Erfahrungen zu studieren, da niemand gerne über Fehler spricht. Analysten werden gerne über Erfolge sprechen, aber sobald es zu Fehlern kommt, sollten Sie darauf vorbereitet sein, von "Rauschakkumulation", "falscher Korrelation" und "zufälliger Endogenität" zu hören, und zwar ohne Einzelheiten. Sind die Probleme mit Big Data wirklich nur theoretisch?
Heute werden wir die Erfahrung von echten Fehlern untersuchen, die sich spürbar auf Benutzer und Analysten auswirken.
Stichprobenfehler

In dem Artikel „ Big Data: Ein großer Fehler? »Erinnerte sich an eine interessante Geschichte mit einem Startup Street Bump. Das Unternehmen lud die Einwohner von Boston ein, den Zustand der Straßenoberfläche mithilfe einer mobilen Anwendung zu überwachen. Die Software zeichnete die Position des Smartphones und abnormale Abweichungen von der Norm auf: Gruben, Unebenheiten, Schlaglöcher usw. Die empfangenen Daten wurden in Echtzeit an den gewünschten Adressaten an die kommunalen Dienste gesendet.
Irgendwann bemerkte das Büro des Bürgermeisters jedoch, dass es viel mehr Beschwerden aus den reichen Regionen als aus den armen gibt. Die Analyse der Situation ergab, dass wohlhabende Einwohner Telefone mit einer dauerhaften Verbindung zum Internet hatten, häufiger fuhren und aktive Benutzer verschiedener Anwendungen waren, einschließlich Street Bump.
Infolgedessen war das Hauptziel der Studie ein Ereignis in der Anwendung, aber die statistisch signifikante interessierende Einheit sollte eine Person sein, die ein mobiles Gerät verwendet. Angesichts der Demografie der Smartphone-Nutzer (zu dieser Zeit waren es hauptsächlich weiße Amerikaner mit mittlerem und hohem Einkommen) wurde deutlich, wie unzuverlässig die Daten waren.
Das Problem der unbeabsichtigten Voreingenommenheit wandert seit Jahrzehnten von einer Studie zur nächsten: Es wird immer Menschen geben, die soziale Netzwerke, Apps oder Hashtags aktiver nutzen als andere. Die Daten selbst reichen nicht aus - die Qualität ist von größter Bedeutung. Ebenso wie Fragebögen die Umfrageergebnisse beeinflussen, verzerren elektronische Plattformen zur Datenerfassung die Forschungsergebnisse, indem sie das Verhalten der Menschen bei der Arbeit mit diesen Plattformen beeinflussen.
Laut den Autoren der Studie "Überprüfung der Selektivitätsverarbeitungsmethoden in Big Data-Quellen" gibt es viele Big Data-Quellen, die nicht für eine genaue statistische Analyse vorgesehen sind - Internet-Umfragen, Seitenaufrufe auf Twitter und Wikipedia, Google Trends, Hashtag-Analyse usw.
Einer der auffälligsten Fehler dieser Art ist die Vorhersage des Sieges von Hillary Clinton bei den US-Präsidentschaftswahlen 2016. Laut einer Reuters / Ipsos- Umfrage, die Stunden vor Beginn der Abstimmung veröffentlicht wurde, war es zu 90% wahrscheinlich, dass Clinton gewinnt. Die Forscher vermuten, dass die Umfrage selbst methodisch einwandfrei hätte durchgeführt werden können, aber die Basis, bestehend aus 15.000 Menschen in 50 Bundesstaaten, verhielt sich irrational - höchstwahrscheinlich gaben viele einfach nicht zu, dass sie für Trump stimmen wollten.
Korrelationsfehler
Unverständliche Korrelation und verwirrende Kausalität verwirren den beginnenden Datenwissenschaftler oft. Das Ergebnis sind Modelle, die mathematisch einwandfrei und in der Realität völlig unrentabel sind.

Die obige Tabelle zeigt die Gesamtzahl der UFO-Sichtungen seit 1963. Die Anzahl der gemeldeten Fälle aus der Datenbank des National UFO Reporting Center ist seit vielen Jahren ungefähr gleich geblieben, aber 1993 gab es einen starken Sprung.
Wir können daher eine völlig logische Schlussfolgerung ziehen, dass Außerirdische vor 27 Jahren das Studium der Erdlinge ernsthaft aufgenommen haben. Der wahre Grund war, dass die erste Folge von The X-Files im September 1993 veröffentlicht wurde (auf ihrem Höhepunkt wurde sie von über 25 Millionen Menschen in den Vereinigten Staaten gesehen).

Schauen Sie sich nun die Daten an, die die Häufigkeit von UFO-Sichtungen in Abhängigkeit von Tageszeit und Wochentag anzeigen: Die höchste Häufigkeit von Sichtungen ist gelb-orange gefärbt. Offensichtlich landen Außerirdische am Wochenende häufiger auf der Erde, weil sie den Rest der Zeit zur Arbeit gehen. Menschen zu erforschen ist für sie also ein Hobby?
Diese lustigen Korrelationen haben weitreichende Auswirkungen. Eine Studie zum Zugang zum Druck in einkommensschwachen Gemeinden ergab beispielsweise, dass Schulkinder mit Zugang zu mehr Büchern bessere Noten erhielten. Anhand der Daten wissenschaftlicher Arbeiten begannen die Behörden von Philadelphia (USA), das Bildungssystem neu zu organisieren.
Das fünfjährige Projekt umfasste den Umbau von 32 Bibliotheken, um allen Kindern und Familien in Philadelphia gleiche Chancen zu bieten. Auf den ersten Blick sah der Plan großartig aus, aber leider berücksichtigte die Studie nicht, ob die Kinder die Bücher tatsächlich lesen - sie befasste sich nur mit der Frage, ob die Bücher verfügbar sind oder nicht.
Infolgedessen wurden keine signifikanten Ergebnisse erzielt. Kinder, die vor dem Studium keine Bücher gelesen hatten, liebten es nicht plötzlich zu lesen. Die Stadt verlor Millionen von Dollar, die Noten von Schulkindern aus benachteiligten Gebieten verbesserten sich nicht, und Kinder, die aus Liebe zu Büchern erzogen wurden, lernten weiter, wie sie es taten.
Datenverlust

( c )
Manchmal mag die Stichprobe korrekt sein, aber die Autoren verlieren einfach die Daten, die sie zur Analyse benötigen. Dies geschah in einer weltweit verbreiteten Arbeit unter dem Namen "Freakonomics". Das Buch, dessen Gesamtauflage 4 Millionen Exemplare überstieg, untersuchte das Phänomen der Entstehung nicht offensichtlicher Ursache-Wirkungs-Beziehungen. Unter den hochkarätigen Ideen des Buches gibt es beispielsweise die Idee, dass der Grund für den Rückgang der Jugendkriminalität in den Vereinigten Staaten nicht das Wachstum der Wirtschaft und Kultur war, sondern die Legalisierung der Abtreibung.
Die Autoren von "Freakonomics", Professor für Wirtschaftswissenschaften an der Universität von Chicago, Stephen Levitt und Journalist Stephen Dubner, gaben einige Jahre später zudass nicht alle gesammelten Zahlen in die endgültige Abtreibungsumfrage einbezogen wurden, da die Daten einfach verschwanden. Levitt erklärte die methodische Fehleinschätzung mit den Worten, dass sie zu diesem Zeitpunkt "sehr müde" seien, und verwies auf die statistische Unbedeutung dieser Daten für den Gesamtabschluss der Studie.
Ob Abtreibung tatsächlich die zukünftige Kriminalität reduziert oder nicht, ist noch umstritten. Die Autoren haben jedoch viele andere Fehler bemerkt , und einige von ihnen ähneln bemerkenswert der Situation mit der Popularität der Ufologie in den 1990er Jahren.
Analysefehler

( c )
Biotech ist zu einem neuen Rock'n'Roll für Technologieunternehmer geworden. Es wird auch als "neuer IT-Markt" und sogar als "neue Kryptowelt" bezeichnet, was auf die explosive Beliebtheit von Investoren bei Unternehmen hinweist, die an der Verarbeitung biomedizinischer Informationen beteiligt sind.
Ob Biomarker- und Zellkulturdaten "neues Öl" sind oder nicht, ist eine zweitrangige Frage. Die Konsequenzen des schnellen Pumpens von Geld in die Industrie sind von Interesse. Schließlich kann Biotechnologie nicht nur eine Bedrohung für VC-Geldbörsen darstellen, sondern auch die menschliche Gesundheit direkt beeinträchtigen.
Zum Beispiel, wie betontGenetiker Stephen Lipkin, das Genom hat die Fähigkeit, qualitativ hochwertige Analysen durchzuführen, aber Informationen zur Qualitätskontrolle sind für Ärzte und Patienten oft tabu. Manchmal wissen Sie vor der Bestellung eines Tests möglicherweise nicht im Voraus, wie tief Ihre Sequenzierungsabdeckung ist. Wenn ein Gen nicht oft genug gelesen wird, um eine ausreichende Abdeckung zu gewährleisten, findet die Software die Mutation dort, wo es keine gibt. Wir wissen oft nicht, welcher Algorithmus verwendet wird, um Gen-Allele in nützlich und schädlich zu klassifizieren.
Es gibt eine großedie Anzahl der wissenschaftlichen Arbeiten auf dem Gebiet der Genetik, die Fehler enthalten. Ein Team australischer Forscher analysierte etwa 3,6.000 genetische Artikel, die in einer Reihe führender wissenschaftlicher Fachzeitschriften veröffentlicht wurden. Als Ergebnis wurde festgestellt, dass etwa jedes fünfte Werk Fehlergene in seine Listen aufnahm.
Die Ursache dieser Fehler ist auffällig: Anstatt spezielle Sprachen für die statistische Verarbeitung von Daten zu verwenden, haben die Wissenschaftler alle Daten in einer Excel-Tabelle zusammengefasst. Excel konvertierte Gennamen automatisch in Kalenderdaten oder Zufallszahlen. Und es ist einfach unmöglich, Tausende und Abertausende von Zeilen manuell zu überprüfen.
In der wissenschaftlichen Literatur werden Gene häufig mit Symbolen bezeichnet: Beispielsweise wird das Septin-2-Gen zu SEPT2 und der membranassoziierte Ringfinger (C3HC4) 1 zu MARCH1 verkürzt. Excel ersetzte diese Zeilen unter Verwendung der Standardeinstellungen durch Datumsangaben. Die Forscher stellten fest, dass sie das Problem nicht vorangetrieben haben - darauf wurde vor mehr als einem Jahrzehnt hingewiesen .
In einem anderen Fall versetzte Excel der Wirtschaft einen schweren Schlag . Die berühmten Ökonomen der Harvard University, Carmen Reinhart und Kenneth Rogoff, analysierten in ihrer Forschungsarbeit 3.700 verschiedene Fälle eines Anstiegs der Staatsverschuldung und ihrer Auswirkungen auf das Wirtschaftswachstum in 42 Ländern über 200 Jahre.
Die Arbeit "Wachstum über die Zeit der Verschuldung" zeigte eindeutig, dass eine Staatsverschuldung unter 90% des BIP das Wirtschaftswachstum praktisch nicht beeinflusst. Wenn die Staatsverschuldung 90% des BIP übersteigt, sinkt die mittlere Wachstumsrate um 1%.
Die Studie hat einen großen Einfluss darauf gehabt, wie sich die Welt mit der jüngsten Wirtschaftskrise auseinandergesetzt hat. Die Arbeit wurde häufig zitiert, um Budgetkürzungen in den USA und in Europa zu rechtfertigen.
Einige Jahre später enthüllten Thomas Herndorn, Michael Ash und Robert Pollin von der University of Massachusetts, nachdem sie die Arbeit von Rogoff und Reinhart Punkt für Punkt analysiert hatten, alltägliche Ungenauigkeiten bei der Arbeit mit Excel. Statistiken zeigen in der Tat keinen Zusammenhang zwischen den BIP-Wachstumsraten und der Staatsverschuldung.
Fazit: Fehlerbehebungen als Fehlerquelle

( c )
Angesichts der großen Menge an zu analysierenden Informationen entstehen einige fehlerhafte Assoziationen, einfach weil dies die Natur der Dinge ist. Wenn Fehler selten und nahezu zufällig sind, leiden die Schlussfolgerungen der endgültigen Analyse möglicherweise nicht. In einigen Fällen ist es sinnlos, mit ihnen umzugehen, da der Kampf mit Fehlern bei der Datenerfassung zu neuen Fehlern führen kann.
Der berühmte Statistiker Edward Deming formulierte die Beschreibung dieses Paradoxons wie folgt: Die Einrichtung eines stabilen Prozesses zum Ausgleich der kleinen verfügbaren Abweichungen, um die besten Ergebnisse zu erzielen, kann zu schlechteren Ergebnissen führen, als wenn der Prozess nicht gestört würde.
Um die Probleme mit der Überkorrektur von Daten zu veranschaulichen, verwenden wir die Simulation von Korrekturen, bei denen versehentlich Bälle durch einen Trichter fallen gelassen werden. Der Prozess kann unter Verwendung mehrerer Regeln angepasst werden, deren Hauptzweck darin besteht, die Möglichkeit zu bieten, sich der Mitte des Trichters so nahe wie möglich zu nähern. Je mehr Sie sich jedoch an die Regeln halten, desto frustrierender werden die Ergebnisse.
Der einfachste Weg, mit einem Trichter zu experimentieren, besteht darin, ihn online durchzuführen, für den ein Simulator erstellt wurde . Schreiben Sie in die Kommentare, welche Ergebnisse Sie erzielt haben.
In der MADE Academy , einem kostenlosen Bildungsprojekt der Mail.ru Group, können wir Ihnen beibringen, wie Sie Big Data richtig analysieren . Wir akzeptieren Bewerbungen für Schulungen bis einschließlich 1. August.