Funktionsauswahl beim maschinellen Lernen

Hallo Habr!

Wir bei Reksoft haben den Artikel Feature Selection in Machine Learning ins Russische übersetzt . Wir hoffen, dass es für alle nützlich ist, denen das Thema nicht gleichgültig ist.

In der realen Welt sind Daten nicht immer so sauber, wie Geschäftskunden manchmal denken. Aus diesem Grund sind Data Mining und Data Wrangling gefragt. Es hilft dabei, fehlende Bedeutungen und Muster in abfragestrukturierten Daten zu identifizieren, die von Menschen nicht identifiziert werden können. Maschinelles Lernen ist praktisch, um diese Muster zu finden und zu verwenden, um Ergebnisse mithilfe erkannter Datenverbindungen vorherzusagen.

Um einen Algorithmus zu verstehen, müssen Sie sich alle Variablen in den Daten ansehen und herausfinden, was diese Variablen darstellen. Dies ist wichtig, da die Begründung für die Ergebnisse auf dem Verständnis der Daten basiert. Wenn Ihre Daten 5 oder sogar 50 Variablen enthalten, können Sie sie alle untersuchen. Was ist, wenn es 200 davon gibt? Dann bleibt einfach nicht genug Zeit, um jede einzelne Variable zu untersuchen. Darüber hinaus funktionieren einige Algorithmen nicht für kategoriale Daten, und dann müssen alle kategorialen Spalten quantifiziert werden (sie sehen möglicherweise quantitativ aus, aber die Metriken zeigen, dass sie kategorisch sind), um sie dem Modell hinzuzufügen. Somit nimmt die Anzahl der Variablen zu, und es gibt ungefähr 500 davon. Was ist jetzt zu tun? Sie könnten denken, dass die Reduzierung der Dimensionalität die Antwort ist. Dimensionsreduktionsalgorithmen reduzieren die Anzahl der Parameteraber die Interpretierbarkeit negativ beeinflussen. Was ist, wenn es andere Techniken gibt, die die Merkmale beseitigen und gleichzeitig den Rest leicht verständlich und interpretierbar machen?

, , , .

, , . , (dataset) « » « », , , , . . , (overfit) .

P-

, , — . p-, . , p-, - , , , , (target).

— , . , , , . , , . . p-, . , , ( ).

, . . ( ), . p- . .

RFE / . , « » , ; ( 200-400), , - , . RFE . . . , RFE , ( , , , ).

, ( p-) ( , ). , , Random Forest, LightGBM XG Boost, , « ». , .

(bias) (variance). , (overfit) . , . , . ! :

L1 — : (.. ). , , , (.. , ).

L2 — Ridge: Ridge . Ridge , .

Ridge , , , Elastic-Net.

, : . — , , , .

! !




All Articles