Dieser Artikel ist ad hoc. Das letzte Mal habe ich mir die Nuancen und Herausforderungen verschiedener Datennormalisierungsmethoden angesehen. Und erst nach der Veröffentlichung wurde mir klar, dass ich einige wichtige Details nicht erwähnt hatte. Für einige werden sie offensichtlich erscheinen, aber meiner Meinung nach ist es besser, dies explizit zu sagen.
Normalisierung kategorialer Daten
Um den Text nicht mit grundlegenden Dingen zu überladen, gehe ich davon aus, dass Sie wissen, was kategoriale und ordinale Daten sind und wie sie sich von den anderen unterscheiden.
Offensichtlich kann jede Normalisierung nur für numerische Daten durchgeführt werden. Wenn dementsprechend nur Zahlen für Ihren Algorithmus / Ihr Programm für die weitere Arbeit geeignet sind, müssen alle anderen Typen in diese konvertiert werden.
Kategoriale Daten sind einfach. Wenn das Ziel nicht einfach darin besteht, die Werte mit einigen Zahlen zu verschlüsseln (zu verschlüsseln), besteht die einzige verfügbare Option darin, sie als Werte „1“ - „0“ (JA - NEIN) für jede mögliche Kategorie darzustellen. Dies ist die sogenannte One-Hot-Codierung . Wenn anstelle eines kategorialen Features so viele neue „boolesche“ Features angezeigt werden, wie es mögliche Kategorien gibt.

Und alle.
, .
, , .
, /”” , — . . .
, , , , “” “”. “ ”, , “” . , , — .
, - , « , 0 1». , . , .
. “” ( ) . , . .
1. . ( ). ( ) , , , . , , .

2. ( ). , “” .
, , . — , , , .
— ..

“”
, , . , .
. “” , . “” .
. , , , . — , , , ( ). .
“” , “”. .

. . , , 100 , 100 . 100 .
,

. “” , , . - , .
“” ( ) “” .

, , “”. .
“” “” .
. /, . “-” ( ), “-” ( ). , - , “-” , “-”.

. . “” .
, , (- ), “-”, , “-”, . .. “”.
, “”, .
, — - , . - .
P.S. — , - AdjustedScaler, “” .