In diesem Artikel möchte ich meine Erfahrungen aus einer wissenschaftlichen Karriere auf dem Gebiet der Datenwissenschaft teilen, die ich in den letzten anderthalb Jahren gesammelt habe.
Dies ist mein erster Beitrag auf Medium, daher möchte ich über mich und meine früheren Erfahrungen sprechen. Ich bin Doktorandin in Umweltingenieurwesen und Informatik an der Harvard University und arbeite auch als Berater für maschinelles Lernen und Blockchain für das in Großbritannien ansässige Beratungsunternehmen für künstliche Intelligenz Critical Future. Meine Forschung konzentriert sich auf die Implementierung von maschinellem Lernen und künstlicher Intelligenz in den Umweltwissenschaften unter Verwendung von Sensorsystemen auf der Basis von Drohnen, die sich unabhängig voneinander bewegen können, um ein Bild der chemischen Zusammensetzung der unteren Atmosphäre, hauptsächlich im Amazonas-Regenwald, zu erstellen (für diejenigen, die an diesem Projekt interessiert sind, Ich werde in naher Zukunft separate Artikel zu diesem Thema veröffentlichen.
Ich habe meine Doktorandenreise an der Harvard University im Herbst 2017 mit einem BA und MA in Maschinenbau vom Imperial College London begonnen und mein letztes Auslandsjahr an der National University of Singapore abgeschlossen. Während meines Grundstudiums war ich mit Data Science und Statistik im Allgemeinen nicht sehr vertraut, wusste aber gleichzeitig viel über das Programmieren in Matlab, C und Visual Basic und hatte auch einen starken mathematischen Hintergrund.
Bevor ich in Harvard anfing, hatte ich noch nie in Python programmiert oder sogar von R gehört. Ich hatte noch nie paralleles Rechnen durchgeführt, nie Cluster erstellt, und maschinelles Lernen und künstliche Intelligenz waren Dinge, von denen ich normalerweise nur hörte. aus dystopischen Romanen und Filmen.
Die Teilnahme an einem Harvard-Programm für Informatik und maschinelles Lernen mit einem so bescheidenen Hintergrund war wie das Besteigen einer steilen Klippe (anstrengend und wackelig). Dies ist jedoch Harvard, sodass Sie kaum weniger erwarten können. Das Harvard PhD-Programm erfordert 10 Kurse, von denen normalerweise 8 Master-Kurse sind. Sie können in Ihrem eigenen Tempo abgeschlossen werden, aber Sie müssen sie vor dem Abschluss abschließen, der durchschnittlich 5 Jahre dauert. Die Studierenden werden aufgefordert, alle Kurse innerhalb der ersten zwei Jahre zu absolvieren. Danach können sie ihren (formal kostenlosen) Master-Abschluss erwerben. Am Ende des Frühjahrssemesters 2019 werde ich diese Anforderungen erfüllen und mein Diplom erhalten, wonach ich mich ausschließlich auf die Forschung konzentrieren werde.
Im Herbst 2018 startete Harvard die erste Gruppe von Studenten für ein Masterstudium in Data Science. Es ist ein zweijähriges Programm, das aus Kernkursen in Datenwissenschaft, Ethik und Angewandter Mathematik, Informatik und Wahlfächern in Statistik / Wirtschaft besteht. Wenn ich ein Jahr vor all diesen Studenten ankomme, werde ich einer der Ersten sein, der die Grundvoraussetzungen für dieses Programm erfüllt und mir eine einzigartige Erfahrung in Bezug auf die Effektivität meines Data Science-Abschlusses bietet.
In den letzten 18 Monaten habe ich eine Reihe von Kursen besucht. Eines der ersten war CS205: Parallel Computing, wo ich zuerst das Programmieren unter Linux lernte und Rechencluster erstellte, die eine lineare Beschleunigung von Matrixberechnungen ermöglichen. Dieser Kurs gipfelte in einem Abschlussprojekt, das paralleles Rechnen in Python mit Dask auf einem Kubernetes-Cluster beinhaltete.
Ich habe auch AM207: Advanced Scientific Computing besucht, das von der Harvard Extension School angeboten wird (was bedeutet, dass jeder an diesem Kurs teilnehmen kann). Dieser Kurs konzentrierte sich auf die Bayes'sche Statistik und ihre Implementierung im maschinellen Lernen und beinhaltete unzählige Stunden Monte-Carlo-Markov-Ketten (MCMC) -Simulationen, die Arbeit mit dem Bayes'schen Theorem und sogar ein kurzes Video über Superman, das die Zeit drehte. Umkehrung (um das Konzept der Zeitumkehrbarkeit beim maschinellen Lernen zu demonstrieren)
Ebenfalls einer der Kernkurse ist AC209a, der sich auf die Grundlagen des maschinellen Lernens und der Datenwissenschaft konzentriert. Ich würde sagen, dass dieser Kurs beinhaltet, woran die meisten Leute denken, wenn jemand die Wörter "Data Science" oder "Machine Learning" sagt. Es geht darum zu lernen, wie man explorative Datenanalysen durchführt und Regressoren und Klassifikatoren mit sklearn ausführt. Ein Großteil des Tutorials konzentriert sich auf das Verständnis dieser Techniken und darauf, wie sie für einen bestimmten Datensatz am besten optimiert werden können (es dauert etwas mehr als nur die Verwendung von model.fit (X_train, y_train) ...). Ein weiterer Kurs ist AC209b: Additional Data Science Sections, eine Erweiterung der ersten Klasse. Grundsätzlich ist dies ein Data Science-Kurs über Steroide.In diesen ersten Vorlesungen beginnen wir mit verallgemeinerten additiven Modellen und erstellen schöne Splines zur Beschreibung von Datensätzen. Es kommt jedoch schnell zu einer parallelen Ausführung von 2500 Modellen mit Dask in einem Kubernetes-Cluster, um eine hyperparametrische Optimierung in einem künstlichen neuronalen Netzwerk mit 100 Schichten durchzuführen. Gleichzeitig war es nicht einmal das Schwierigste, was wir getan haben - all dies geschah erst in der dritten Vorlesungswoche, wenn wir über den gesamten Kurs sprechen.Es war nicht einmal das Schwierigste, was wir getan haben - alles geschah in nur der dritten Vorlesungswoche, wenn wir über den gesamten Kurs sprechen.Es war nicht einmal das Schwierigste, was wir getan haben - alles geschah erst in der dritten Vorlesungswoche, wenn wir über den gesamten Kurs sprechen.
Ich habe auch andere Kurse besucht, darunter CS181: Maschinelles Lernen, das die mathematischen Grundlagen von Regression, Klassifizierung, Bestärkungslernen und anderen Bereichen sowohl mit frequenzbasierten als auch mit Bayes'schen Methoden abdeckt. AM205: Wissenschaftliche Methoden zum Lösen von Differentialgleichungen und AM225: Erweiterte Methoden zum Lösen partieller Differentialgleichungen. Es gibt viele andere Kurse, die ich während meiner verbleibenden Zeit in Harvard belegen könnte, um mein Wissen zu vertiefen, wie z. B. CS207: Systemtechnik für Computerwissenschaften, AM231: Entscheidungstheorie oder AM221: Erweiterte Optimierung. Ich sollte auch klarstellen, dass jeder dieser Kurse ein Abschlussprojekt hatte, das ich meinem Portfolio hinzufügen konnte.
Nun zum Thema des Artikels - nach all der Zeit, die ich damit verbracht habe, zu lernen, wie man ein guter Data Scientist ist, hat es sich gelohnt? Oder hätte ich alles selbst machen können? Lohnt es sich für jemanden, der dies als Karriere verfolgen möchte, 1-2 Jahre und über 100.000 US-Dollar in einen Data Science-Abschluss zu investieren?
Ich glaube nicht, dass ich alles, was ich in diesen 18 Monaten Data Science-Kursen gelernt habe, lernen konnte, indem ich Bücher las, Online-Videos ansah und die Dokumentation verschiedener Softwarepakete studierte. Ich habe jedoch keinen Zweifel daran, dass ein Abschluss in Data Science die Karriere eines Menschen beschleunigen und wertvolle Erfahrungen mit realen Projekten liefern kann, die in Interviews diskutiert und in einem Portfolio verwendet werden könnten. Persönlich würde ich Jahre brauchen, um herauszufinden, wie ein 100-lagiges neuronales Netzwerk, das in einem parallelen Cluster in Google Cloud ausgeführt wird, optimiert werden kann, wenn ich nur zu Hause sitze und mir ein Youtube-Video ansehe - ich könnte mir nicht einmal vorstellen, wie das geht.
Die Neugier auf Data Science ist groß und ich möchte, dass sich mehr Menschen für dieses Thema interessieren. Seit der Informationsexplosion scheinen Daten in den nächsten zehn Jahren zur neuen Weltreligion zu werden, und daher ist es unvermeidlich, dass die Welt viel mehr Spezialisten für Data Science benötigt. Neugier kann Sie jedoch sehr weit bringen. Wenn Sie ein Blatt Papier haben, das zeigt, dass Sie Zeit verbracht, in Fähigkeiten und gute Gewohnheiten investiert und ein wirklich versierter Datenwissenschaftler geworden sind, werden Sie sich von den anderen abheben. Data Science existiert nicht nur als Konkurrenz von Kaggle, wie manche zu denken scheinen.
Mein Rat für diejenigen, die Data Science machen möchten, ist, eine gute Grundlage in Statistik und Mathematik zu schaffen. Ich rate Ihnen auch, Programmiererfahrung in Sprachen wie Python und R zu sammeln und die Linux-Entwicklung zu beherrschen. Die meisten Informatikstudenten, die ich gesehen habe, scheinen mit Informatikaspekten wie der Arbeit mit Docker-Containern und der Erstellung und Verwaltung verteilter Cluster, die auf einer Cloud-Infrastruktur ausgeführt werden, zu kämpfen. Es gibt viele komplexe Fähigkeiten, die man beherrschen muss, um ein erfahrener Data Scientist zu werden, und ich kann mich mit Sicherheit nicht als Experte bezeichnen. Mit etwas Erfahrung bin ich jedoch zuversichtlich genugdass ich meine eigenen Fähigkeiten in den Bereichen Datenwissenschaft und maschinelles Lernen weiterentwickeln und auf industrielle Projekte und Forschung anwenden kann, ohne befürchten zu müssen, "schlechte Wissenschaft" zu betreiben.
Wenn Sie wissen möchten, was ein Data Science-Kurs ist, empfehlen wir Ihnen einen Blick auf die Online-Kurse der Universitäten, mit denen Sie häufig die Credits verdienen, die Sie für den Abschluss Ihres Studiums benötigen. Es gibt jetzt einen Studenten in Harvard, der 3 Kurse in Informatik an der Extension School abgeschlossen hat, jetzt einen Abschluss in Computer und Ingenieurwesen hat und einer der Lehrassistenten im Advanced Data Science-Kurs ist. Alles ist möglich!
Online-Kurse in Data Science mit einem staatlichen Diplom von MISIS
NUST MISIS und SkillFactory (eine Online-Schule für Data Science) haben eine Vereinbarung zur Schaffung eines gemeinsamen Online-Masterstudiengangs „Data Science“ unterzeichnet, der Praktika in realen Projekten, Chatrooms mit Mentoren und einen individuellen Schulungsplan umfasst. Der Unterricht wird von NUST MISIS-Professoren und -Praktikern der Mail.ru Group, der Yandex-, Tinkoff- und VTB-Banken, Lamoda, BIOCAD, AlfaStrakhovanie und anderen gehalten.
Dies ist der erste Fall in Russland einer Partnerschaft zwischen einem privaten Bildungsunternehmen und einer staatlichen Universität nach dem OPM-Modell (Online) Programm-Management). Der Industriepartner des Programms wird die Mail.ru Group sein. Das Programm wird auch von NVidia, Rostelecom und der NTI University "20.35" unterstützt.
Bachelor-Absolventen jeder Richtung können sich auf der Grundlage der Ergebnisse einer Online-Prüfung für ein Master-Programm einschreiben.Sie können sich jetzt und bis zum 10. August bewerben .
Nützliche Materialien
- Werden Sie kein Data Scientist
- 450 kostenlose Kurse aus der Ivy League
- Kostenlose Data Science-Kurse an der Harvard University
- 109 Kostenlose Data Science-Kurse
- 65 kostenlose Kurse für maschinelles Lernen von Top-Universitäten der Welt
- Entschuldigung, aber Online-Kurse machen Sie nicht zum Data Scientist
- Wie man lernt, ein Datenwissenschaftler zu sein: Die gefragtesten technischen Fähigkeiten
- Philosophie des Lehrens von Data Science und Deep Learning von fast.ai
- Wie ich (PhD in Neurobiologie) in 6 Monaten Datenwissenschaftler wurde
- Erfolgreichstes und umstrittenstes Data Science-Projekt: Cambridge Analytica
- Python.org empfiehlt: Programmieren für Nicht-Programmierer