🏴󠁧󠁢󠁥󠁮󠁧󠁿 👸🏾 🍞 Risiken und Vorsichtsmaßnahmen bei der Anwendung der Hauptkomponentenmethode auf überwachte Lernprobleme 🧝🏿 ⏸️ 👎🏽

Die Übersetzung des Artikels wurde im Vorfeld des Beginns des Grundkurses über maschinelles Lernen vorbereitet .

Hochdimensionaler Raum und sein Fluch

Der Fluch der Dimensionalität ist ein ernstes Problem bei der Arbeit mit realen Datensätzen, die tendenziell mehrdimensional sind. Wenn die Dimension des Merkmalsraums zunimmt, kann die Anzahl der Konfigurationen exponentiell zunehmen, und infolgedessen nimmt die Anzahl der durch Beobachtung abgedeckten Konfigurationen ab.

In einem solchen Fall spielt die Hauptkomponentenanalyse (PCA) eine wichtige Rolle. Sie verkleinert die Daten effektiv und behält so viele Variationen wie möglich im Datensatz bei.

Lassen Sie uns einen kurzen Blick auf das Wesentliche der Hauptkomponentenanalyse werfen, bevor wir uns mit dem Problem befassen.

Hauptkomponentenmethode - Definition

Die Hauptidee der Hauptkomponentenanalyse besteht darin, die Dimension eines Datensatzes zu reduzieren, der aus einer großen Anzahl miteinander verbundener Variablen besteht, während die maximale Diversität beibehalten wird, die im Datensatz vorhanden ist.

Definieren wir eine symmetrische Matrix A ,

wobei X eine mxn- Matrix unabhängiger Variablen ist, wobei m die Anzahl der Spalten und n die Anzahl der Datenpunkte ist. Die Matrix A kann wie folgt zerlegt werden:

Wobei D die Diagonalmatrix und E die Matrix der Eigenvektoren von A ist , die in Spalten angeordnet sind.

Hauptkomponenten X.Sind die Eigenvektoren XX ^T , was bedeutet, dass die Richtung der Eigenvektoren / Hauptkomponenten von der Variation der unabhängigen Variablen (X) abhängt .

Warum ist die rücksichtslose Anwendung der Hauptkomponentenanalyse der Fluch überwachter Lernprobleme?

In der Literatur wird häufig die Verwendung der Hauptkomponentenanalyse bei Regressionen sowie bei Multikollinearitätsproblemen erwähnt. Zusammen mit der Verwendung der Regression für Hauptkomponenten gab es jedoch viele Missverständnisse über die Erklärbarkeit der Antwortvariablen durch Hauptkomponenten und die Reihenfolge ihrer Bedeutung.

Ein häufiges Missverständnis, das in verschiedenen Artikeln und Büchern mehrfach aufgetreten ist, ist, dass in einer überwachten Lernumgebung mit Hauptkomponentenregression Hauptkomponenten der unabhängigen Variablen mit kleinen Eigenwerten keine wichtige Rolle bei der Erklärung der Antwortvariablen spielen, zu der wir führen der Zweck dieses Artikels. Die Idee ist, dass Komponenten mit kleinen Eigenwerten für die Erklärung der Antwortvariablen genauso wichtig oder sogar viel wichtiger sein können als Basiskomponenten mit großen Eigenwerten.

Im Folgenden werde ich einige Beispiele für Veröffentlichungen auflisten, die ich erwähnt habe:

[1]. Mansfield et al. (1977, S. 38) schlagen vor, dass die Regression nicht viel Vorhersagekraft verliert, wenn nur Komponenten mit geringer Varianz entfernt werden.

[2]. In Ganst und Mason (1980) sind 12 Seiten der Regression von Hauptkomponenten gewidmet, und ein Großteil der Diskussion legt nahe, dass das Entfernen von Hauptkomponenten ausschließlich auf deren Varianzen beruht. (S. 327–328).

[3]. Mosteller und Turki (1977, S.. 397-398) argumentieren auch , dass niedrige Varianzkomponenten unwahrscheinlich sind in Regression wichtig zu sein, offenbar weil die Natur ist „tricky“ aber nicht „Uniform . “

[4]. Hawking (1976, S. 31) definiert die Regel der Erhaltung der Hauptkomponenten in der Regression auf der Grundlage der Varianz noch restriktiver.

Theoretische Erklärung und Verständnis

Lassen Sie uns zunächst die richtige mathematische Begründung für die obige Hypothese erhalten und dann eine kleine Erklärung für ein besseres Verständnis mithilfe der geometrischen Visualisierung und Modellierung geben.

Angenommen,

Y ist die Antwortvariable,

X ist die Feature-Space-Matrix.

Z ist die standardisierte Version. X

Sei es

λ ₁ \geq λ ₂ > \dots . \geq λ p

$λ₁≥λ₂>…. ≥ λp$ sind Eigenwerte von Z ^T Z (Korrelationsmatrix) und V - Eigenvektoren, dann entspricht W = ZV , Spalten in W wird stellen die Hauptkomponenten Z . Die Standardmethode für die Regression von Hauptkomponenten besteht darin, die ersten m Hauptkomponenten auf Y zu regressieren. Das Problem kann durch den folgenden Satz und seine Erklärung dargestellt werden [2].

Satz:

Lassen W = (W₁, ..., Wp) - Eigenvektoren X . Betrachten Sie nun das Regressionsmodell:

Wenn der wahre Vektor der Regressionskoeffizienten β mit dem j-ten Eigenvektor Z ^T Z codirektional ist, trägt bei der Regression von Y zu W die j- te Hauptkomponente Wⱼ zum Lernen bei, während die übrigen im Prinzip nicht dazu beitragen ...

Beweis : Es sei die V = (V₁, ..., Vp) - Matrix der Eigenvektoren von der Z ^T die Z . Dann

seit

, wo sind

die Regressionskoeffizienten des Ausdrucks.

Wenn βwird zusammen mit dem j- ten Eigenvektor V gerichtet , dann ist Vⱼ = aβ , wobei a ein Skalarwert ungleich Null ist. Daher & theta; j = Vⱼᵀβ = aβᵀβ und θᴋ Vᴋᵀ = β = 0, wobei k ≠ j . Somit ist der Regressionskoeffizient θᴋ zu Wᴋ entsprechende Null, für k ≠ j jeweils

Da die Variable Wᴋ nicht die Summe der Quadrate verringern, wenn sein Regressionskoeffizient 0 ist, dann Wj den Hauptbeitrag bringen wird, während der Rest der Hauptkomponenten wird keinen Beitrag leisten.

Geometrische Signifikanz und Modellierung

Lassen Sie uns nun simulieren und eine geometrische Darstellung der obigen mathematischen Berechnungen erhalten. Die Erklärung wird durch Modellierung eines zweidimensionalen Merkmalsraums (X) und einer Antwortvariablen veranschaulicht , so dass die Hypothese visuell leicht verständlich ist.

Abbildung 1: Eindimensionale und zweidimensionale Diagramme für die betrachteten Variablen X1 und X2

In der ersten Phase der Modellierung wurde der Merkmalsraum unter Verwendung einer multivariaten Normalverteilung mit einer sehr hohen Korrelation zwischen den Variablen und den Hauptkomponenten modelliert.

Abbildung 2: Wärmekartenkorrelation für PC1 und PC2 (Hauptkomponenten)

Aus dem Diagramm ist sehr deutlich ersichtlich, dass zwischen den Hauptkomponenten keine Korrelation besteht. Im zweiten Schritt werden die Werte der Antwortvariablen Y so modelliert, dass die Richtung des Y-Koeffizienten der Hauptkomponenten mit der Richtung der zweiten Hauptkomponente übereinstimmt.

Nach dem Empfang der Antwortvariablen sieht die Korrelationsmatrix ungefähr so aus.

Abbildung 3: Wärmekarte für Variable Y sowie PC1 und PC2.

Die Grafik zeigt deutlich, dass die Korrelation zwischen Y und PC2 höher ist als zwischen Y und PC1 , was unsere Hypothese bestätigt.

Abbildung 4: Abweichung des Merkmalsraums durch PC1 und PC2.

Da die Abbildung zeigt, dass PC1erklärt 95% der Varianz von X , dann müssen wir gemäß der oben beschriebenen Logik PC2 in der Regression vollständig ignorieren .

Also lasst uns dem folgen und sehen, was passiert!

Abbildung 5. Ergebnis der Regression mit Y und PC1.

Somit sagte R² , gleich 0 , dass PC1 trotz der Tatsache, dass es 95% der Varianz X ergibt, die Antwortvariable immer noch nicht erklärt.

Machen wir jetzt dasselbe mit PC2 , das nur 5% der Varianz von X erklärt , und sehen, was passiert.

Abbildung 6: Ergebnis der Regression mit Y und PC2.

Yuhu! Schauen Sie sich nur , was passiert ist : die Hauptkomponente , die erklärt 5% von X Varianz gab 72% der Y die Varianz . Es gibt auch reale Beispiele, um solche Situationen zu unterstützen:

[1] Smith und Campbell (1980) gaben ein Beispiel aus der chemischen Technik an, wo es 9 regressive Variablen gab und wenn die Varianz der achten Hauptkomponente 0,06% der Gesamtvarianz betrug, was nicht der Fall wäre aufgrund der obigen Logik berücksichtigt.

[2] Ein zweites Beispiel lieferten Kung und Sharif (1980). In einer Studie zur Vorhersage des Startdatums von Monsunen unter Verwendung von zehn meteorologischen Variablen waren nur die achten, zweiten und zehnten Komponenten signifikant. Dieses Beispiel zeigt, dass selbst die Hauptkomponente mit dem kleinsten Eigenwert die drittwichtigste ist, um die Variabilität der Antwortvariablen zu erklären.

Ausgabe

Die obigen Beispiele zeigen, dass es unangemessen ist, Hauptkomponenten mit kleinen Eigenwerten zu entfernen, da sie nur die Erklärbarkeit im Merkmalsraum beeinflussen, nicht jedoch die Antwortvariable. Daher müssen Sie alle Komponenten in Techniken zur Reduzierung der überwachten Lerndimension beibehalten, z. B. die partielle Regression der kleinsten Quadrate und die Regression der kleinsten Winkel, auf die wir in zukünftigen Artikeln eingehen werden.

Quellen

[1] Jolliffe, Ian T. “A Note on the Use of Principal Components in Regression.” Journal of the Royal Statistical Society. Series C (Applied Statistics), vol. 31, no. 3, 1982, pp. 300–303. JSTOR, www.jstor.org/stable/2348005.

[2] Hadi, Ali S., and Robert F. Ling. “Some Cautionary Notes on the Use of Principal Components Regression.” The American Statistician, vol. 52, no. 1, 1998, pp. 15–19. JSTOR, www.jstor.org/stable/2685559.

[3] HAWKINS, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Appl. Statist., 22, 275–286

[4] MANSFIELD, E. R., WEBSTER, J. T. and GUNST, R. F. (1977). An analytic variable selection technique for principal component regression. Appl. Statist., 26, 34–40.

[5] MOSTELLER, F. and TUKEY, J. W. (1977). Data Analysis and Regression: A Second Course in Statistics. Reading, Mass.: Addison-Wesley

[6] GUNST, R. F. and MASON, R. L. (1980). Regression Analysis and its Application: A Data-oriented Approach. New York: Marcel Dekker.

[7] JEFFERS, J. N. R. (1967). Two case studies in the application of principal component analysis. Appl. Statist., 16, 225- 236. (1981). Investigation of alternative regressions: some practical examples. The Statistician, 30, 79–88.

[8] KENDALL, M. G. (1957). A Course in Multivariate Analysis. London: Griffin.

Erfahren Sie mehr über den Kurs „Maschinelles Lernen. Grundkurs “ . Neben einer kostenlosen Lektion können Sie sich unter diesem Link für ein kostenloses Webinar anmelden .

Weiterlesen:

Entropie: Wie Entscheidungsbäume Entscheidungen treffen

Risiken und Vorsichtsmaßnahmen bei der Anwendung der Hauptkomponentenmethode auf überwachte Lernprobleme