Hallo! Ich bin Webentwickler und interessiere mich seit einigen Jahren für maschinelles Lernen. Weil ich in meinem täglichen Arbeitspark Probleme lösen muss, die für mich weniger interessant sind und nicht mit maschinellem Lernen zusammenhängen, vergesse ich von Zeit zu Zeit, was ich einmal gelesen oder benutzt habe. Um ein Memo für mich selbst zu erstellen, mein Wissen zu stärken und es mit anderen zu teilen, habe ich beschlossen, diese Artikelserie über maschinelles Lernen zu schreiben. Ich werde mit der Datenvorverarbeitung beginnen.
In diesem Artikel werde ich darüber sprechen, welche Probleme mit Daten auftreten, wie sie gelöst werden können und welche Methoden am häufigsten verwendet werden, um Daten vorzubereiten, bevor sie verschiedenen Modellen "zugeführt" werden.
Überspringt
Betrachten Sie den folgenden Datensatz. Ich habe es ehrlich erfunden und werde in diesem Artikel weiter darauf verweisen.
ICH WÜRDE | Name | Sportdisziplin | Ein Land | Geburtsjahr des Athleten | Athletengewicht | Medaille |
---|---|---|---|---|---|---|
1 | Ivan | Rudern | Die Russische Föderation | 1985 | 265 | B. |
2 | Boxen | Großbritannien | 1986 | 54 | S. | |
3 | Kim | Griechisch-römisches Wrestling | Nordkorea | 1986 | 93 | G |
4 | Oleg | Griechisch-römisches Wrestling | 1984 | B. | ||
fünf | Pedro | Rudern | Brasilien | 97 | N. | |
6 | Valery | Rudern | Die Russische Föderation | 2004 | 97 | N. |
, . . — , . , .
, "" , . , , .
— , - , . , "" "" . , , - - . : , , , .
. , . .
, . , . : , . — , .
:
- "".
ID | ||||||
---|---|---|---|---|---|---|
2 | 1986 | 54 | S |
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | B |
, :
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (265 + 54 + 93 + 97 + 97) / 5 = 121.2 | B |
, " " 1 .
- . , .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (54, 93, 97, 97, 265) = 97 | B |
, . , , . , "" . — ( ).
ID | ||||||
---|---|---|---|---|---|---|
1 | 1985 | 265 | B |
, , , , . :
— — , 25% . — — , 75% .
, , , : :
.
— . , [0, 1]. , . , . (, , ) .
. , , . , .
Z-. Z- :
— X.
Z- .
M[X] — X.
, Z- , .
One-hot encoding
. . , " " - . : . . . ( ).
, , ? . , " " 1, "" — 2. . , , . , . .
, , . , "" 4 :
ID | _ | _ | _ | _ | ||
---|---|---|---|---|---|---|
1 | 1 | 0 | 0 | 0 | ||
2 | 0 | 1 | 0 | 0 | ||
3 | 0 | 0 | 0 | 1 | 0 | |
4 | 1 | 0 | 0 | 0 | ||
5 | 0 | 0 | 0 | 1 | ||
6 | 1 | 0 | 0 | 0 |
, , .
, . . , , . . , .
Vielen Dank für das Lesen oder Stöbern hier. Ich habe nicht alle Vorverarbeitungsmethoden beschrieben, und dieser Artikel ist für professionelle Datenwissenschaftler kaum nützlich. Wenn Sie jedoch Anfänger sind und nicht wissen, was Sie mit Ihren Daten tun sollen, können Sie sicher hierher zurückkehren. Viel Glück beim Lernen und bei interessanten Aufgaben!
Liste der Quellen
Ich bin kein Wissenschaftler und dieser Artikel behauptet nicht, wissenschaftlich zu sein. Daher werde ich keine Quellen nach GOSTs erstellen. Bitte entschuldigen Sie mich dafür.