Im Vorfeld des Beginns des Grundkurses über maschinelles Lernen haben wir eine interessante Übersetzung für Sie vorbereitet und bieten Ihnen außerdem eine kostenlose Demo-Lektion zum Thema "Wie Sie mit NLP die Welt verbessern können" an .
Einführung
Wenn Sie mindestens einige Ihrer eigenen Data Science-Projekte abgeschlossen haben, haben Sie wahrscheinlich bereits herausgefunden, dass eine Genauigkeit von 80% nicht schlecht ist. Aber für die reale Welt sind 80% nicht mehr geeignet. Tatsächlich erwarten die meisten Unternehmen, für die ich gearbeitet habe, eine Mindestgenauigkeit (oder eine andere Metrik) von mindestens 90%.
Daher werde ich über fünf Dinge sprechen, die Sie tun können, um die Genauigkeit erheblich zu verbessern. Ich empfehle Ihnen dringend, alle fünf Punkte zu lesen, da es viele Details gibt, die Anfänger möglicherweise nicht kennen.
Am Ende dieses Artikels sollten Sie erkannt haben, dass es viel mehr Variablen gibt, die für die Funktionsweise Ihres maschinellen Lernmodells eine Rolle spielen, als Sie sich vorstellen.
, 5 , , !
1.
, , , , . , /, , .
, , , , , . 15 80 , 80 , .
, , « »?
, / :
: , , . , , ANOVA .
K- : K- , , , K- (.. ).
: , . , , .
2.
– . – , , . , Data Science – , . , , :
DateTime , , ..
(, 100–149, 150–199, 200–249 ..)
/ . , «Iswomenor_child», True, , False .
3.
– , / . , , , .
, :
: , XGBoost, , «» . , , .
: – (PCA). .
4. Ensemble Learning
– . , .
(Ensemble Learning) – , . , , - .
- , XGBoost, AdaBoost. , , :
. () . ? « , », .
, , , 0. 4 , 1. !
5.
, , , – . , , , , .
:
class sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None
, , minimpuritydecrease, , «», ! ;)
!
, 80% 90+%. . Data Science.