Die Übersetzung wurde im Rahmen des Kurses " Maschinelles Lernen. Professionell " erstellt.
Wir laden alle ein, an dem zweitägigen Online-Intensivkurs "ML-Modelle bereitstellen: Vom schmutzigen Code in einem Laptop bis zum funktionierenden Dienst" teilzunehmen.
Beobachtungsfehler und Untergruppenunterschiede verursachen statistische Paradoxe
Beobachtungsfehler und Untergruppenunterschiede können in jeder datenwissenschaftlichen Anwendung leicht zu statistischen Paradoxien führen. Das Ignorieren dieser Elemente kann die Schlussfolgerungen unserer Analyse völlig diskreditieren.
In der Tat ist es nicht ungewöhnlich, solche erstaunlichen Phänomene wie Untergruppentrends zu sehen, die sich in den aggregierten Daten vollständig umkehren. In diesem Artikel werfen wir einen Blick auf die drei häufigsten statistischen Paradoxe in Data Science.
1. Burksons Paradoxon
Das erste bemerkenswerte Beispiel ist die umgekehrte Korrelation zwischen der Schwere der COVID-19-Krankheit und dem Zigarettenrauchen (siehe beispielsweise die Überprüfung der Europäischen Kommission Wenzel 2020 ). Zigarettenrauchen ist ein bekannter Risikofaktor für Atemwegserkrankungen. Wie erklären Sie diese Kontroverse?
Griffith 2020, Nature, , (Collider Bias), . , , : «».
: «» — - « », « COVID-19». ( )
. , ( -).
: «», COVID-19! ( )
COVID-19 , , , .
— — ! , .
COVID-19 . , 1, .
(- , , ), - .
, COVID-19, ! , COVID-19 - , (, - , , ).
Berkson 1946, , , .
2. ()
, . : « ».
: « » — «n » «n ». ( )
. , , , , .
. , , (.. ).
: « », ! ( )
, , , .
, , .
, , , .
3.
, , , .
, , .
, , : A B.
100 : 80 A, 68 (85%), 20 , 12 (60%).
100 : 30 , 28 (93%), 70 B, 46 (66%).
: - , ! ( )
.
: , . ( )
, , . , ( A: 80–30, B: 20–70). , B ( ), ( ). , .
, -, data science. .
"Machine Learning. Professional"
- « ML : »