Datenvorverarbeitung

Hallo! Ich bin Webentwickler und interessiere mich seit einigen Jahren für maschinelles Lernen. Weil ich in meinem täglichen Arbeitspark Probleme lösen muss, die für mich weniger interessant sind und nicht mit maschinellem Lernen zusammenhängen, vergesse ich von Zeit zu Zeit, was ich einmal gelesen oder benutzt habe. Um ein Memo für mich selbst zu erstellen, mein Wissen zu stärken und es mit anderen zu teilen, habe ich beschlossen, diese Artikelserie über maschinelles Lernen zu schreiben. Ich werde mit der Datenvorverarbeitung beginnen.



In diesem Artikel werde ich darüber sprechen, welche Probleme mit Daten auftreten, wie sie gelöst werden können und welche Methoden am häufigsten verwendet werden, um Daten vorzubereiten, bevor sie verschiedenen Modellen "zugeführt" werden.



Überspringt



Betrachten Sie den folgenden Datensatz. Ich habe es ehrlich erfunden und werde in diesem Artikel weiter darauf verweisen.



ICH WÜRDE Name Sportdisziplin Ein Land Geburtsjahr des Athleten Athletengewicht Medaille
1 Ivan Rudern Die Russische Föderation 1985 265 B.
2 Boxen Großbritannien 1986 54 S.
3 Kim Griechisch-römisches Wrestling Nordkorea 1986 93 G
4 Oleg Griechisch-römisches Wrestling 1984 B.
fünf Pedro Rudern Brasilien 97 N.
6 Valery Rudern Die Russische Föderation 2004 97 N.


, . . — , . , .



, "" , . , , .



— , - , . , "" "" . , , - - . : , , , .



. , . .



, . , . : , . — , .





:



  • "".


ID
2 1986 54 S


  • .


ID
4 - 1984 B




, :



  • .


ID
4 - 1984 (265 + 54 + 93 + 97 + 97) / 5 = 121.2 B


, " " 1 .



  • . , .


ID
4 - 1984 (54, 93, 97, 97, 265) = 97 B




, . , , . , "" . — ( ).



ID
1 1985 265 B


, , , , . :



ichQ.R.=Q.3- -Q.1,



Q.1 — — , 25% . Q.3 — — , 75% .



, , , : :



[Q.1- -1.5ichQ.R.,Q.3+1.5ichQ.R.]]



.





— . , [0, 1]. , . , . (, , ) .



. , , . , .



xnew=xÖld- -xmichnxmeinx- -xmichn



Z-. Z- :



(- -3σ[X.]],3σ[X.]]),



σ[X.]] — X.



Z- .



xnew=xÖld- -M.[X.]]σ[X.]]



M[X] — X.



, Z- , .



One-hot encoding



. . , " " - . : . . . ( ).



, , ? . , " " 1, "" — 2. . , , . , . .



, , . , "" 4 :



ID _ _ _ _
1 1 0 0 0
2 0 1 0 0
3 0 0 0 1 0
4 1 0 0 0
5 0 0 0 1
6 1 0 0 0


, , .





, . . , , . . , .



Vielen Dank für das Lesen oder Stöbern hier. Ich habe nicht alle Vorverarbeitungsmethoden beschrieben, und dieser Artikel ist für professionelle Datenwissenschaftler kaum nützlich. Wenn Sie jedoch Anfänger sind und nicht wissen, was Sie mit Ihren Daten tun sollen, können Sie sicher hierher zurückkehren. Viel Glück beim Lernen und bei interessanten Aufgaben!



Liste der Quellen



Ich bin kein Wissenschaftler und dieser Artikel behauptet nicht, wissenschaftlich zu sein. Daher werde ich keine Quellen nach GOSTs erstellen. Bitte entschuldigen Sie mich dafür.



  1. Vorlesung von Yandex und HSE "Einführung in das maschinelle Lernen" am Cursor.
  2. Standardisierung oder mittlere Entfernung und Varianzskalierung - Dokumentation der sklearn-Bibliothek
  3. Erweiterte Datenvorbereitungsaufgaben für maschinelles Lernen - Microsoft



All Articles