In Übereinstimmung mit dem Konzept eines spiralförmigen Lernansatzes, über das ich zuvor geschrieben habe , folgt hier ein schrittweiser Plan zur Beherrschung der Datenwissenschaft. Der Plan ist so konzipiert, dass der Schüler in jeder Phase mehr oder weniger besser für reale Aufgaben gerüstet ist. Dieser Ansatz ist von der Ideologie von Agile in dem Sinne inspiriert, dass Sie unabhängig davon, wie viel Zeit Sie für das Lernen aufwenden und wann immer Sie aufhören, über das gefragteste Wissen verfügen, das Sie in einer solchen Zeit beherrschen können.
Diese Logik kann auch aus dem Gegenteil erklärt werden: Es ist gefährlich, neuronale Netze sofort zu lernen, weil Eine Person, die etwas über sie weiß, aber nicht weiß, wie sie es in der Praxis effektiv anwenden kann, ist nicht gefragt. Zum Beispiel können Sie in 300 Stunden eine Reihe von Kenntnissen erwerben, die Sie nicht zu einem Spezialisten machen, der wirklich genug ist, um echte Probleme zu lösen, und die es Ihnen nicht einmal ermöglichen, einen Startjob zu finden, um diese Fähigkeiten weiterzuentwickeln.
Wenn Sie gemäß dem vorgeschlagenen Plan studieren, steigt in jeder Phase die Chance, einen solchen Arbeitsplatz zu finden, so dass die für weiteres Wachstum erforderlichen Fähigkeiten auch im Verlauf der tatsächlichen Arbeit verbessert werden können.
Für jede Stufe gebe ich die Referenzarbeitskosten an, die einem mehr oder weniger effektiven Ansatz unterliegen und nur das erforderliche Mindestvolumen untersuchen (bei einem ineffektiven Ansatz kann jeder Gegenstand zehnmal länger unterrichtet werden).
Später werde ich in einem separaten Artikel gute Kurse und Bücher schreiben, die jeder Stufe entsprechen (einige Kurse und Bücher für die ersten Stufen wurden bereits früher im ersten Artikel dieser Reihe angegeben).
Stufe 1. Grundlegende Datenanalysetools: SQL, Excel
SQL-Grundlagen (20h). SQL-Kenntnisse selbst können für eine Vielzahl anderer Aufgaben nützlich sein. Und es ist auf jeden Fall für einen großen (die meisten?) Teil der offenen Stellen für die Position eines Analytikers, Datenwissenschaftlers und vor allem eines Ingenieurs für maschinelles Lernen erforderlich.
Excel-Grundlagen (10h): Filter und Sortieren von Daten, Formeln, Lookup, Pivot-Tabellen, grundlegende Arbeit mit Diagrammen. Kollegen, Partner oder das Management werden Beiträge einreichen, um herausragende Leistungen zu erbringen, und Sie müssen in der Lage sein, diese schnell zu verstehen und zu studieren. Oft ist es bequemer, die Ergebnisse der in Python in Excel durchgeführten Analyse vorzubereiten und darzustellen.
(20-200, ), .. , pandas/scikit, Python .
: / / -. , , 100, 50-70 .
2. Python Pandas
Python (80). . .
pandas (20 ) - . : , , ,
API (requests, beatiful soup)
Python API, -.
, . , -, ( ). , , .
3.
( 200-400 , )
:
-
Overfitting
-
Data leakage
( )
, :
:
Random forest
kNN
: k-means
:
: PCA
: dummy , one-hot encoding, tf-idf
:
: , ( ).
: "correlation does not imply causation", .
., , : . (max likelihood), (log-likelihood). ( log log-odds), ( ""). , , . , . . , senior, :
. - (/) .
4.
- scikit-learn, pandas (numpy).
, . 100-300. - , .
feature engineering
junior data scientist. . . senior , .
, CNN, RNN/LSTM , vector embeddings. , . " " , , , , , .
, .
20-40, .
5. ,
60-200, . , , , .. ,
Conda, , conda
bash
Python standard library, ( itertools, collections, contextlib), , ; context managers.
git, IDE: pycharm/vs code. git,
(matplotlib+seaborn, plotnine, plotly), .
( -, ).
, , , , (feature engineering), , , (xgboost, cat-boost). . Senior .
, 2-5
- , . , , . ( ):
matplotlib – , . , , -. , , "" - .
seaborn - , . .
plotnine - . - , . - seaborn , matplotlib , . , , plotnine . plotly - .
plotly - . . , , ().
, 10-20 .
, - PowerBI Tableau, . , , 60. SQL+Excel+PowerBI/Tableau "BI-" c 100 ., 150 . .
, ,
regular expressions, aka RegExp (10). regexp .
PySpark (40 , 100-200 ) . , (). Big data. , .. . ( , ).
Spark , , , .. SQL , , API pandas. , . Koalas, pandas spark-, Spark.
html - , , , .
6
, , , .
Python : , , , dunderscore ____ .
bash, linux
docker
. , , . .. , .
- (, EDA ). , . , . , , .. . , : , , .
, . , .. . , "" .
: . 50, , , .
, ,
, ( 2 ) , , .
, , , , . , , , . , .
, , , .
self.development.mentor in der Domain gmail.com, Oleg