Data Science ist ein Verstärker des Denkens, der Intuition und der Inspiration

Bild




Eine der weltweit ersten Technologien zum Speichern und Austauschen von Daten.



Im 19. Jahrhundert konnten Ärzte Quecksilber für Stimmungsschwankungen und Arsen für Asthma verschreiben. Es ist ihnen möglicherweise nicht in den Sinn gekommen, sich vor der Operation die Hände zu waschen. Natürlich haben sie nicht versucht, jemanden zu töten - sie wussten einfach nicht, dass es geeignetere Methoden gibt.



Diese frühen Ärzte hatten wertvolle Daten auf ihren Notizbüchern, aber jeder sah nur einen Teil eines großen Puzzles. Ohne moderne Werkzeuge für den Austausch und die Analyse von Informationen (sowie die Wissenschaft, um diese Daten zu verstehen) könnte nichts den Aberglauben daran hindern, das zu beeinflussen, was durch das "Schlüsselloch" beobachteter Tatsachen gesehen werden kann.



Der Mensch hat seitdem einen langen Weg mit der Technologie zurückgelegt, aber der heutige Boom des maschinellen Lernens und der künstlichen Intelligenz ist nicht unberührt von der Vergangenheit. All dies ist eine Fortsetzung des grundlegenden menschlichen Instinkts - das Verstehen der Welt um uns herum. Dieser Instinkt ist notwendig, damit wir klügere Entscheidungen treffen können. Und wir haben jetzt eine deutlich bessere Technologie als je zuvor.



Eine Möglichkeit, dieses Muster zu beschreiben, das sich im Laufe der Jahrhunderte entwickelt hat, besteht darin, es als Revolution in Datensätzen und nicht als Dateneinheiten zu betrachten. Der Unterschied ist nicht trivial. Massive Daten haben die moderne Welt mitgeprägt. Betrachten Sie die sumerischen Schriftgelehrten (der heutige Irak), die vor über 5.000 Jahren ihre Stifte auf Tonplatten drückten. Dabei erfanden sie nicht nur das erste Schriftsystem, sondern auch die erste Technologie zum Speichern und Austauschen von Daten.



Wenn Sie von dem Versprechen inspiriert sind, dass KI die menschlichen Fähigkeiten übertreffen kann, ziehen Sie Briefpapier in Betracht, um uns übermenschliche Erinnerungen zu geben. Während es heute leicht ist, die Aufzeichnung von Informationen als selbstverständlich zu betrachten, ist die Möglichkeit, Datensätze sicher zu speichern, ein bahnbrechender erster Schritt in Richtung höherer Intelligenz.



Leider ist das Extrahieren von Informationen aus Tonplatten und ihren vorelektronischen Gegenstücken ein Schmerz. Sie können nicht mit dem Finger auf ein Buch klicken, um die Anzahl der darin enthaltenen Wörter zu zählen. Stattdessen müssen Sie jedes Wort in Ihr Gehirn laden, um es zu verarbeiten. Probleme wie diese machten eine frühe Datenanalyse mühsam, so dass frühe Versuche sehr früh stecken blieben. Während das Königreich Steuereinnahmen analysieren konnte, konnte nur eine furchtlose Seele versuchen, in einem Bereich wie der Medizin, in dem eine tausendjährige Tradition die Improvisation förderte, so effektiv zu argumentieren.



Bild



Glücklicherweise hat die Menschheit unglaubliche Pioniere hervorgebracht. Zum Beispiel inspirierte John Schnees Todeskarte, die während des Cholera-Ausbruchs in London im Jahr 1858 erstellt wurde, die Ärzte, den Aberglauben, dass die Krankheit durch Miasma (giftige Luft) verursacht wurde, zu überdenken und auf Trinkwasser zu achten.



Bild



Wenn Sie die Dame mit der Lampe, Florence Nightingale, für ihr heldenhaftes Mitgefühl als Krankenschwester kennen, werden Sie überrascht sein, dass sie auch eine Pionierin in der Analytik war. Ihre erfinderische Infografik während des Krimkrieges rettete viele Leben, weil sie Hygieneprobleme als Haupttodesursache in Krankenhäusern identifizierte. Diese Infografik inspirierte die Regierung, auf sanitäre Einrichtungen zu achten.



Bild



Die Ära der einheitlichen Datensätze begann, als sich der Wert von Informationen in immer mehr Bereichen durchsetzte und zum Aufkommen von Computern führte. Und hier geht es nicht um den elektronischen Kumpel, an den Sie heute gewöhnt sind. Der "Computer" (Taschenrechner) entstand als menschlicher Beruf, als spezielle Mitarbeiter Berechnungen durchführten und Daten manuell verarbeiteten, um ihre Bedeutung zu beurteilen.



Bild



Diese Leute waren alle Computer! Foto aufgenommen in den 1950er Jahren von Mitarbeitern des Überschalldrucktunnels .



Das Schöne an Daten ist, dass Sie damit ein Urteil aus etwas aussagekräftigerem als Luft machen können. Wenn Sie sich die Daten ansehen, werden Sie dazu inspiriert, neue Fragen zu stellen, die in die Fußstapfen von Florence Nightingale und Jon Snow treten. Dies ist die Disziplin der Analytik: Modelle und Hypothesen durch Forschung zu inspirieren.



Von Datensätzen zur Datenpartitionierung



Zu Beginn des 20. Jahrhunderts führte der Wunsch, angesichts der Unsicherheit bessere Entscheidungen zu treffen, zur Geburt eines Parallelberufs: der Statistik. Statistiker helfen bei der Überprüfung, ob es sinnvoll ist, sich gemäß dem Phänomen zu verhalten, das der Analyst im aktuellen Datensatz (und darüber hinaus) entdeckt hat.



Ein berühmtes Beispiel ist Ronald A. Fisher, der das weltweit erste Lehrbuch zur Statistik entwickelt hat. Fisher beschreibt die Durchführung eines Hypothesentests als Reaktion auf die Behauptung seines Freundes, er könne feststellen, ob dem Tee vor oder nach dem Wasser Milch zugesetzt wurde. In der Hoffnung zu beweisen, dass dies nicht wahr war, musste er aufgrund der Daten zu dem Schluss kommen, dass sein Freund es wirklich hätte tun können.



Analytik und Statistik haben eine große Achillesferse: Wenn Sie dieselben Daten verwenden, um eine Hypothese zu erstellen und zu testen, betrügen Sie. Aufgrund der strengen Statistik müssen Sie Ihre Absichten erklären, bevor Sie die entsprechenden Maßnahmen ergreifen. Analytics ist eher ein erweitertes retrospektives Spiel. Analysen und Statistiken waren frustrierend inkompatibel, bis die nächste große Revolution (Datenaustausch) alles veränderte.



Das Teilen von Daten ist eine einfache Idee, aber eine der wichtigsten Ideen für Wissenschaftler wie mich. Wenn Sie nur einen Datensatz haben, müssen Sie zwischen Analysen (unbegründete Inspiration) und Statistiken (starke Schlussfolgerungen) wählen. Willst du einen Trick? Teilen Sie Ihren Datensatz in zwei Teile und Sie haben sowohl die Wölfe als auch die Schafe in Sicherheit!



Die Ära zweier Datensätze beseitigt die Spannung zwischen Analytik und Statistik und führt eine koordinierte Arbeit zwischen zwei verschiedenen Arten von Datenwissenschaftlern ein. Analysten verwenden einen Datensatz, um Fragen zu formulieren, und Statistiker verwenden einen anderen Datensatz, um eindeutige Antworten zu erhalten.



Dieser Luxus stellt hohe Anforderungen an die Datenmenge. Es ist einfacher, über Trennung zu sprechen, als sie tatsächlich umzusetzen. Sie wissen, worum es geht, wenn Sie versucht haben, genügend Informationen für mindestens einen anständigen Datensatz zu sammeln. Die Ära der doppelten Datensätze ist eine Neuentwicklung, die mit besseren Datenverarbeitungsgeräten, geringeren Speicherkosten und der Möglichkeit, gesammelte Informationen über das Internet auszutauschen, einhergeht.



Tatsächlich leiteten die technologischen Innovationen, die zur Ära der doppelten Datensätze führten, schnell die nächste Phase ein - die Ära der automatischen drei Datensätze.



Dafür gibt es einen bekannteren Begriff: maschinelles Lernen.



Die Verwendung eines Datensatzes zerstört seine Reinheit als Quelle statistischer Genauigkeit. Sie haben nur eine Chance. Woher wissen Sie also, welche analytischen Erkenntnisse es am meisten wert sind, getestet zu werden? Wenn Sie einen dritten Datensatz hatten, können Sie damit eine Probefahrt mit Ihrer Idee machen. Dieser Prozess wird als Validierung bezeichnet und ist das Herzstück dessen, was maschinelles Lernen zum Funktionieren bringt.



Sobald Sie alles testen und solide Ideen sehen können, können Sie darauf vertrauen, dass jeder eine Lösung findet: erfahrene Analysten, Praktikanten, Teeblätter für Wahrsagerei und sogar Algorithmen, die in Bezug auf Ihr Geschäftsproblem nicht im Zusammenhang stehen. Die Lösung, die im Validierungsprozess am besten abschneidet, wird zum Kandidaten für den entsprechenden statistischen Test. Sie haben sich gerade die Möglichkeit gegeben, Inspiration zu automatisieren!



Automatisierte Inspiration



Aus diesem Grund revolutioniert maschinelles Lernen Datensätze, nicht nur Daten. Es geht um den Luxus, genügend Daten für eine Drei-Wege-Partition zu haben.



Wie passt KI in dieses Bild? Maschinelles Lernen mit mehrschichtigen neuronalen Netzen wird technisch als Deep Learning bezeichnet, hat jedoch einen anderen Spitznamen erhalten, der in der Sprache stecken geblieben ist: KI. Während KI früher eine andere Bedeutung hatte, wird sie heute höchstwahrscheinlich synonym mit Deep Learning verwendet.



Tiefe neuronale Netze haben für Aufsehen gesorgt, indem sie herkömmliche Algorithmen für maschinelles Lernen bei einer Vielzahl komplexer Probleme geschlagen haben. Sie benötigen jedoch viel mehr Daten, um sie zu trainieren, und die Anforderungen an die Datenverarbeitungsfunktionen gehen über die Fähigkeiten eines herkömmlichen Laptops hinaus. Aus diesem Grund ist die Entstehung moderner KI mit Cloud-Technologien verbunden. Mit der Cloud-Technologie können Sie das Rechenzentrum eines anderen mieten, anstatt die Hardware selbst zusammenzubauen. So können Sie moderne KI-Technologien ausprobieren, bevor Sie in sie investieren.



Mit diesem Puzzleteil haben wir eine ganze Reihe von Berufen: maschinelles Lernen und KI-Experten, Analysten und Statistiker. Der allgemeine Begriff, der jeden von ihnen beschreibt, ist ein Experte für Data Science, die Wissenschaft, die Daten nützlich macht.



Data Science ist das Produkt unserer Ära der dreifachen Datensätze. Viele Branchen in der heutigen Branche generieren regelmäßig mehr als genug Daten. Ist also ein Ansatz mit vier Datensätzen möglich?



Was ist der nächste Schritt, wenn das gerade trainierte Modell niedrige Validierungswerte aufweist? Wenn Sie sich wie die meisten Menschen verhalten, werden Sie sofort nach dem Grund fragen! Leider gibt es keinen Datensatz, der Ihre Frage beantworten kann. Sie könnten versucht sein, sich in Ihrem Validierungsdatensatz zu vertiefen, aber leider beeinträchtigt das Debuggen die Fähigkeit, Ihre Modelle effektiv zu validieren.



Durch die Analyse Ihres Validierungsdatensatzes verwandeln Sie im Wesentlichen drei Datensätze wieder in zwei. Anstatt etwas Nützliches zu tun, sind Sie unfreiwillig in die Vergangenheit zurückgekehrt!



Die Lösung liegt außerhalb der drei Datensätze, die Sie bereits verwenden. Um zu intelligenteren Lerniterationen und hyperparametrischer Optimierung zu gelangen, sollten Sie sich den Best Practices nähern: der Ära der vier Datensätze.



Angenommen, drei Datensätze bieten Ihnen Inspiration, Lerniterationen und strenge Tests. Der vierte beschleunigt Ihren KI-Entwicklungszyklus mit erweiterten Analysen, die Aufschluss darüber geben, welche Ansätze bei jeder Iteration ausprobiert werden können. Durch die Verwendung der Vier-Wege-Datenfreigabe können Sie die Fülle an Daten nutzen! Willkommen in der Zukunft.



Bild



In den kostenpflichtigen Online-Kursen von SkillFactory erfahren Sie, wie Sie einen hochkarätigen Beruf von Grund auf neu aufbauen oder Ihre Fähigkeiten und Ihr Gehalt verbessern können:











All Articles