Inhaltsverzeichnis:
Einleitung
1. Mathematik und Statistik
2. Grundlagen der Programmierung
3. Algorithmen und Konzepte des maschinellen Lernens
4. Projekte auf dem Gebiet der Datenwissenschaft
Einführung
Ich vermute, dass Sie als angehender Datenwissenschaftler die Konzepte und Details verschiedener Algorithmen für maschinelles Lernen, datenwissenschaftliche Konzepte usw. vollständig verstehen möchten.
Daher empfehle ich, dass Sie mit der Basis beginnen, bevor Sie sich überhaupt mit Algorithmen für maschinelles Lernen oder Datenanalyseanwendungen befassen. Wenn Sie kein grundlegendes Verständnis für Analysis und Integrale, lineare Algebra und Statistik haben, wird es für Sie schwierig sein, die zugrunde liegende Mechanik der verschiedenen Algorithmen zu verstehen. Wenn Sie kein grundlegendes Verständnis von Python haben, wird es für Sie ebenfalls schwierig sein, Ihr Wissen in reale Anwendungen zu übersetzen. Nachfolgend finden Sie die Reihenfolge der Themen, die ich zum Lernen empfehle:
- Mathematik und Statistik.
- Grundlagen der Programmierung.
- Algorithmen und Konzepte für maschinelles Lernen.
1. Mathematik und Statistik
Wie bei allem anderen sollten Sie die Grundlagen lernen, bevor Sie sich mit den lustigen Dingen befassen. Vertrauen Sie mir, es wäre viel einfacher für mich, wenn ich zuerst Mathematik und Statistik lernen würde, bevor ich mit einigen Algorithmen für maschinelles Lernen anfange. Drei allgemeine Themen, die ich empfehlen möchte, sind Kalkül / Integrale, Statistik und lineare Algebra (in keiner bestimmten Reihenfolge).
Integrale
Integrale sind wichtig, wenn es um Wahrscheinlichkeitsverteilung und Hypothesentests geht. Sie müssen zwar kein Experte sein, es liegt jedoch in Ihrem Interesse, die Grundlagen von Integralen zu erlernen. Die ersten beiden Artikel richten sich an diejenigen, die sich ein Bild von Integralen machen möchten, oder an diejenigen, die nur ihr Wissen auffrischen müssen. Wenn Sie absolut nichts über Integrale wissen, empfehle ich Ihnen, den Khan Academy-Kurs zu belegen. Schließlich finden Sie hier Links zu einer Reihe praktischer Aufgaben, mit denen Sie Ihre Fähigkeiten verbessern können:
- Einführung in Integrale (Artikel).
- Ein Crashkurs über Integrale (Artikel).
- Khan Academy: Integralrechnung (Kurs).
- Praktische Fragen (beginnen Sie mit Block 6).
Statistiken
Wenn es ein Thema gibt, auf das Sie sich konzentrieren sollten, handelt es sich um Statistiken. Schließlich ist ein Datenwissenschaftler ein wirklich moderner Statistiker, und maschinelles Lernen ist ein moderner Begriff für Statistik. Wenn Sie Zeit haben, empfehle ich Ihnen, den Georgia Tek-Kurs Statistical Techniques zu belegen , der die Grundlagen von Wahrscheinlichkeit, Zufallsvariablen, Wahrscheinlichkeitsverteilung, Hypothesentest und mehr behandelt. Wenn Sie keine Zeit haben, sich diesem Kurs zu widmen, empfehle ich dringend, die Videos der Khan Academy zu Statistiken anzusehen .
Lineare Algebra
Die lineare Algebra ist besonders wichtig, wenn Sie in tiefes Lernen eintauchen möchten, aber selbst dann ist es hilfreich, sie für andere grundlegende Konzepte des maschinellen Lernens wie die Hauptkomponentenanalyse und Empfehlungssysteme zu kennen. Für die Beherrschung der linearen Algebra empfehle ich auch die Khan Academy !
2. Grundlagen der Programmierung
Ebenso wie ein grundlegendes Verständnis von Mathematik und Statistik wichtig ist, wird ein grundlegendes Verständnis von Programmierung Ihr Leben so viel einfacher machen, insbesondere wenn es um die Implementierung geht. Daher empfehle ich Ihnen, sich die Zeit zu nehmen, um die grundlegenden Sprachen - SQL und Python - zu lernen, bevor Sie sich mit Algorithmen für maschinelles Lernen befassen.
SQL
Es ist egal, wo ich anfangen soll, aber ich würde mit SQL beginnen. Warum? Es ist einfacher zu lernen und nützlich zu wissen, ob Sie in einem Datenunternehmen beschäftigt sind, auch wenn Sie kein Datenwissenschaftler sind.
Wenn Sie mit SQL noch nicht vertraut sind, empfehlen wir Ihnen , die SQL-Tutorials von Mode zu lesen , da diese sehr präzise und detailliert sind. Wenn Sie fortgeschrittenere Konzepte erlernen möchten, lesen Sie die Liste der Ressourcen, in denen Sie fortgeschrittenes SQL erlernen können .
Im Folgenden finden Sie einige Ressourcen, mit denen Sie SQL üben können:
Python
Ich habe mit Python angefangen und werde wahrscheinlich für den Rest meines Lebens bei dieser Sprache bleiben. In Bezug auf Open Source-Beiträge ist es weit voraus und leicht zu erlernen. Sie können sich gerne an R wenden, wenn Sie möchten, aber ich habe keine Meinungen oder Ratschläge zu R. Ich habe festgestellt, dass das Erlernen von Python mit Übung viel lohnender ist. Nach mehreren Python-Crashkursen kam ich jedoch zu dem Schluss, dass dieser Kurs der vollständigste (und kostenlosste!) Ist.
Pandas
Die vielleicht wichtigste Bibliothek, die Sie kennen sollten, ist Pandas, die speziell für die Manipulation und Analyse von Daten entwickelt wurde. Im Folgenden finden Sie zwei Ressourcen, die Ihre Lernkurve beschleunigen sollen. Der erste Link ist ein Tutorial zur Verwendung von Randas, und der zweite Link enthält viele praktische Aufgaben, die Sie lösen können, um Ihr Wissen zu festigen!
3. Algorithmen und Konzepte des maschinellen Lernens
Wenn Sie zu diesem Teil des Artikels gekommen sind, bedeutet dies, dass Sie Ihr Fundament aufgebaut haben und bereit sind, interessante Dinge zu lernen. Dieser Teil ist in zwei weitere Teile unterteilt: Algorithmen für maschinelles Lernen und Konzepte für maschinelles Lernen.
Algorithmen für maschinelles Lernen
Der nächste Schritt besteht darin, die verschiedenen Algorithmen für maschinelles Lernen zu lernen, wie sie funktionieren und wann sie verwendet werden. Unten finden Sie eine unvollständige Liste der verschiedenen Algorithmen und Ressourcen für maschinelles Lernen, mit denen Sie die einzelnen Algorithmen lernen können.
- Lineare Regression ( Georgia Tech , StatQuest ).
- Logistische Regression ( StatQuest ).
- K nächste Nachbarn ( MIT ).
- Entscheidungsbäume ( StatQuest ).
- Naive Bayes ( Terence Sheen , Luis Serrano ).
- Support Vector Machines ( SVM-Tutorial von Alice Zhao ).
- Neuronale Netze ( Terence Sheen ).
- Zufällige Wälder ( StatQuest ).
- AdaBoost ( Terence Sheen , StatQuest ).
- Gradientenverstärkung ( StatQuest ).
- XGBoost ( StatQuest ).
- Hauptkomponentenanalyse ( StatQuest ).
Konzepte des maschinellen Lernens
Darüber hinaus gibt es einige grundlegende Konzepte des maschinellen Lernens, die Sie ebenfalls lernen möchten. Unten finden Sie eine (nicht erschöpfende) Liste von Konzepten, die ich sehr empfehlen kann. Viele Interviewfragen basieren auf diesen Themen!
- Regularisierung .
- Die Bias - Varianz Dilemma .
- Verwirrungsmatrix und verwandte Metriken .
- Fläche unter der ROC- und ROC-Kurve (Video) .
- Bootstrap-Abruf .
- Ensemble Training, Absacken und Boosten .
- Normalisierung und Standardisierung .
4. Projekte auf dem Gebiet der Datenwissenschaft
Zu diesem Zeitpunkt haben Sie nicht nur eine solide Grundlage geschaffen, sondern auch ein solides Verständnis für die Grundlagen des maschinellen Lernens. Jetzt ist es Zeit, an einigen persönlichen Nebenprojekten zu arbeiten. Wenn Sie einige einfache Beispiele für Data Science-Projekte sehen möchten, sehen Sie sich einige meiner Projekte an:
- Vorhersage der Weinqualität mithilfe von Klassifizierungsmethoden ( Artikel , Github ).
- Visualisierung von Coronavirus-Daten mit Plotly ( Artikel , Github ).
- Filmempfehlungssystem mit kollaborativen Filtern ( Github ).
Hier ist eine Liste von Data Science-Projekten, die Sie sich ansehen können, um ein interessantes Nebenprojekt zu entwickeln.
Ich hoffe, dieser Beitrag gibt Ihnen Anweisungen und hilft Ihnen bei Ihrer Karriere in Data Science. Es gibt keine Silberkugel, also zögern Sie nicht, diesen Beitrag mit einem Körnchen Salz zu nehmen, aber ich glaube, dass sich das Erlernen der Grundlagen in Zukunft auszahlen wird. Mit dem Promo-Code HABR wird der auf dem Banner angezeigte Trainingsrabatt um 10% erhöht .