Checkliste vor dem Kalibrieren eines maschinellen Lernmodells

Theoretisch sieht die Bedienung des Modells oft einfach und ordentlich aus, aber wenn Sie eine Reihe realer Daten erhalten und diese berechnen, kann dies zu einer Betäubung führen. Wir geben 7 nützliche Tipps von Peter Lukyanchenko, Ex-Teamleiter Analytics bei Lamoda und Leiter des Online-Kurses „Mathematik für Datenwissenschaften . Fortgeschrittene " .










Hallo! Dies ist Pjotr ​​Lukyanchenko (PetrPavlovich). Meine Checkliste ist eine Sammlung von Gedanken, die sich im Laufe der Jahre voller Unebenheiten und Fehler entwickelt haben.



1. Erklärung des Problems



Überprüfen Sie immer das Problem, das Sie zählen möchten. Was wirst du machen? Etwas klassifizieren? Berechnung? Ein klares Verständnis der Aufgabe bestimmt Ihre nächste Aktion.



2. Daten (Garbage In = Garbage Out)



Stellen Sie immer sicher, dass die Daten keine Duplikate enthalten. Der Ausdruck "Garbage In = Garbage Out" bedeutet, dass das Ergebnis irgendwie herauskommt, wenn die Daten irgendwie gesammelt werden. Übrigens gibt es deshalb einen eigenen Beruf als Data Engineer - Spezialisten, die oft mit heldenhafter Arbeit einfach ekelhafte Daten bereinigen. Sie wissen, wie sie Abweichungen von Ausreißern erkennen, entfernen und korrigieren können, damit spätere Analysten mit hochwertigen Datensätzen arbeiten können.



3. Themenbereich



Kennen Sie immer den Themenbereich, in dem Sie Ihre Regression erstellen. Dies wird dazu beitragen, die Hypothesen auf Realismus zu testen. Und mit diesem Verständnis vermeiden Sie die unnötige Anstrengung, alberne Regressionen aus der Serie "Wie sich die Geschwindigkeit der schmelzenden Gletscher auf das Wachstum der Kaninchenpopulation in Australien auswirkt" zu zählen.



4. Modelllogik



Sie können nicht ohne Logik arbeiten. Es ist sehr wichtig, die Logik des Modells zu verstehen, ob diese Beziehung logisch ist. In diesem Fall kann das erhaltene Ergebnis sogar von hoher Qualität sein, kann aber gleichzeitig nicht interpretiert werden. Wenn es den Anschein hat, dass es keine Logik gibt, ist es daher besser, die Regression nicht zu zählen, da sich in diesem Fall herausstellt, dass es sich um Dummheit handelt, die zu neuen fehlerhaften Entscheidungen führt.



5. Metriken für den Test sind wichtiger als Metriken für das Training



Wenn wir die Regression trainieren, verwenden wir eine Metrik zum Trainieren. Dies ist eine MSE-Metrik oder eine Alternative. Und wenn wir viele Regressionen gezählt haben, können wir sie miteinander vergleichen. Die R-Quadrat-Metrik wird hier bereits verwendet.



Die Regressionstrainingsmetrik und die Regressionsbewertungsmetrik (Testmetrik) sind zwei verschiedene Metriken. Und wenn ein Modell gut gelernt hat, bedeutet dies nicht, dass es gut getestet wird. Jede dieser Metriken muss sorgfältig und korrekt ausgewählt werden.



6 Je einfacher die Regression, desto besser wird es funktionieren



Und je schwieriger die Regression ist, desto wahrscheinlicher ist es, dass etwas schief geht.



7. Besser eine gute Regression als eine Stunde später perfekt



Wenn Sie eine gute Regressionslösung gefunden haben, hören Sie am besten dort auf. Versuchen Sie nicht, etwas Perfektes, Superpräzises zu tun. Manchmal kann sich der Versuch, sich zu verbessern, tatsächlich verschlechtern. Ja, Sie möchten 100 Vorhersagen treffen, aber im wirklichen Leben gibt es keine 100% ige Qualität. Selbst die besten Qualitätsmetriken für Kaggle liegen bei 96-98%.



Jetzt gibt es bei der Kalibrierung von Modellen viel manuelle intellektuelle Arbeit, die bestimmte Fähigkeiten eines Spezialisten erfordert. Ja, wir alle streben nach Auto-ML, d. H. Pythons automatische Auswahl des besten Modells. Bisher ist dies jedoch ein unerreichbarer Zustand, und ohne den mathematischen Apparat zu verstehen, ist es unmöglich, das richtige Modell auszuwählen. Stellen Sie sich vor, Sie erhalten eine Zeitreihe ähnlich der folgenden Tabelle und werden gefragt: "Bitte vorhersagen ...".







An einem solchen Datum können Sie eine große Anzahl verschiedener Regressionen erstellen, von denen jede ihre eigene Prognose abgibt. Hier erfahren Sie, wie Sie die beste Prognose auswählen, Ausreißer in Daten identifizieren und viele andere praktische Dinge, die wir im Fortgeschrittenenkurs Mathematik für Datenwissenschaft durchlaufen .



Wenn Sie bereits arbeiten oder nur in den Bereich der Datenwissenschaft einsteigen möchten, aber Mathematik auf der Ebene "etwas am Institut bestanden" kennen, erhalten Sie hier alle fehlenden Fähigkeiten.



Weitere nützliche Informationen finden Sie im Telegrammkanal des Autors von Peter .






Weiterlesen:






All Articles