🧚🏿 😱 🍎 Maschinelles Lernen. Neuronale Netze (Teil 1): Der Perceptron-Lernprozess 🥛 🧗 🚻

Ich möchte im Voraus darauf hinweisen, dass diejenigen, die wissen, wie das Perzeptron lernt, in diesem Artikel kaum etwas Neues finden werden. Sie können es sicher überspringen. Warum ich mich dazu entschlossen habe - Ich möchte eine Reihe von Artikeln über neuronale Netze und die Verwendung von TensorFlow.js schreiben, daher konnte ich allgemeine theoretische Auszüge nicht auslassen. Deshalb bitte ich Sie, die endgültige Idee mit großer Geduld und Verständnis zu behandeln.

In der klassischen Programmierung beschreibt der Entwickler in einer bestimmten Programmiersprache ein bestimmtes streng festgelegtes Regelwerk, das auf der Grundlage seiner Kenntnisse in einem bestimmten Fachgebiet festgelegt wurde und das in erster Näherung die Prozesse beschreibt, die im menschlichen Gehirn bei der Lösung eines ähnlichen Problems ablaufen.

Beispielsweise kann eine Strategie zum Spielen von Tic-Tac-Toe, Schach und mehr programmiert werden (Abbildung 1).

Abbildung 1 - Der klassische Ansatz zur Lösung von Problemen

Während Algorithmen für maschinelles Lernen einen Satz von Regeln zur Lösung von Problemen ohne Beteiligung des Entwicklers definieren können, jedoch nur basierend auf der Verfügbarkeit eines Trainingsdatensatzes.

Ein Trainingssatz ist eine Art von Eingaben, die mit einer Reihe von erwarteten Ergebnissen (Antworten, Ausgaben) verbunden sind. Bei jedem Trainingsschritt optimiert und reduziert das Modell durch Ändern des internen Zustands den Fehler zwischen der tatsächlichen Ausgabe des Modells und dem erwarteten Ergebnis (Abbildung 2).

Abbildung 2 - Maschinelles Lernen

Neuronale Netze

Lange Zeit versuchten Wissenschaftler, inspiriert von den Prozessen in unserem Gehirn, das Zentralnervensystem rückzuentwickeln und die Arbeit des menschlichen Gehirns nachzuahmen. Dank dessen wurde eine ganze Richtung im maschinellen Lernen geboren - neuronale Netze.

In Abbildung 3 sehen Sie die Ähnlichkeiten zwischen dem Design eines biologischen Neurons und der mathematischen Darstellung eines Neurons, das beim maschinellen Lernen verwendet wird.

Abbildung 3 - Mathematische Darstellung eines Neurons

In einem biologischen Neuron empfängt ein Neuron elektrische Signale von Dendriten und moduliert elektrische Signale mit unterschiedlichen Stärken, die das Neuron bei Erreichen eines bestimmten Schwellenwerts anregen können, was wiederum zur Übertragung eines elektrischen Signals über Synapsen an andere Neuronen führt.

Perceptron

Mathematisches Modell eines neuronalen Netzwerks, das aus einem Neuron besteht und zwei aufeinanderfolgende Operationen ausführt (Abbildung 4):

berechnet die Summe der Eingangssignale unter Berücksichtigung ihrer Gewichte (Leitfähigkeit oder Widerstand) der Verbindung
${s u m = \vec{X}}^{T} \vec{W} + \vec{B} = \sum_{i = 1}^{n} x_{i} w_{i} + b$
${sum=\ \vec{X}}^T\vec{W}+\vec{B}=\sum_{i=1}^{n}{x_iw_i}+b$
wendet die Aktivierungsfunktion auf die Gesamtsumme der Eingangssignale an.
$o u t = φ (s u m)$
$out=\varphi(sum)$

Abbildung 4 - Mathematisches Modell des Perzeptrons

Jede differenzierbare Funktion kann als Aktivierungsfunktion verwendet werden. Die am häufigsten verwendeten sind in Tabelle 1 aufgeführt. Die Wahl der Aktivierungsfunktion liegt auf den Schultern des Ingenieurs. Diese Wahl basiert normalerweise entweder auf den vorhandenen Erfahrungen bei der Lösung ähnlicher Probleme, gut oder einfach auf der Methode Auswahl.

Die Notiz

Es gibt jedoch eine Empfehlung, dass die ReLU-Funktion am besten als Aktivierungsfunktion geeignet ist, die während des Trainingsprozesses die besten Konvergenzraten des Modells aufweist, wenn in einem neuronalen Netzwerk Nichtlinearität erforderlich ist.

Tabelle 1 - Allgemeine Aktivierungsfunktionen


Linear function	$φ (x) = x$ $\varphi\left(x\right)=x$	.
Sigmoid function	$φ (x) = \frac{1}{1 + e^{- x}}$ $\varphi\left(x\right)=\frac{1}{1+e^{-x}}$
Softmax function	$φ (x_{j}) = \frac{e^{x_{j}}}{\sum_{i} e^{x_{i}}}$ $\varphi\left(x_j\right)=\frac{e^{x_j}}{\sum_{i} e^{x_i}}$	$φ ([\begin{matrix} 1.2 \\ 0.9 \\ 0.4 \end{matrix}]) = [\begin{matrix} 0.46 \\ 0.34 \\ 0.20 \end{matrix}]$ $\varphi \left ( \begin{bmatrix} 1.2\\ 0.9\\ 0.4 \end{bmatrix} \right ) = \begin{bmatrix} 0.46\\ 0.34\\ 0.20 \end{bmatrix}$ ( 2)
Hyperbolic Tangent function	$φ (x) = \frac{e^{x} - e^{- x}}{e^{x} - e^{- x}}$ $\varphi\left(x\right)=\frac{e^x-e^{-x}}{e^x-e^{-x}}$	[-1, 1]. , ,
Rectified Linear Unit (ReLU)	$φ (x) = max (0, x)$ $\varphi\left(x\right)=\max(0,x)$	, , sigmoid tanh
Leaky ReLU	$φ (x) = max (0.01 x, x)$ $\varphi\left(x\right)=\max(0.01x,x)$	ReLU , 0

Perceptron-Lernprozess

Der Lernprozess besteht aus mehreren Schritten. Zur besseren Übersichtlichkeit betrachten wir ein bestimmtes fiktives Problem, das wir mit einem neuronalen Netzwerk lösen werden, das aus einem Neuron mit einer linearen Aktivierungsfunktion besteht (dies ist im Wesentlichen ein Perzeptron ohne Aktivierungsfunktion überhaupt), und um die Aufgabe zu vereinfachen, schließen wir den Verschiebungsknoten b im Neuron aus (Abbildung 5). ...

Abbildung 5 - Der Trainingsdatensatz und der Status des neuronalen Netzwerks im vorherigen Trainingsschritt

In dieser Phase befindet sich ein neuronales Netzwerk in einem bestimmten Status mit bestimmten Verbindungsgewichten, die in der vorherigen Trainingsphase des Modells berechnet wurden. Wenn dies die erste Iteration des Trainings ist, werden die Werte der Verbindungsgewichte in ausgewählt zufällige Reihenfolge.

Stellen wir uns also vor, wir haben einen Satz von Trainingsdaten. Die Werte jedes Elements aus dem Satz werden durch einen Vektor von Eingabedaten (Eingabedaten) dargestellt, der 2 Parameter enthält (Merkmal).

x_{1}, x_{2}

$x_1,x_2$ ... Unter

x_{1}, x_{2}

$x_1,x_2$ In dem Modell kann abhängig von der fraglichen Domäne alles impliziert werden: die Anzahl der Räume im Haus, die Entfernung des Hauses vom Meer, na ja, oder wir versuchen nur, das neuronale Netzwerk der logischen Operation AND oder OR zu trainieren.

Jeder Eingabevektor im Trainingssatz wird einem erwarteten Ausgabevektor zugeordnet. In diesem Fall enthält der Ausgabedatenvektor nur einen Parameter, der wiederum je nach ausgewähltem Themenbereich alles bedeuten kann - den Preis eines Hauses, das Ergebnis einer logischen UND- oder ODER-Verknüpfung.

SCHRITT 1 - Feedforward-Prozess

In diesem Schritt berechnen wir die Summe der Eingangssignale unter Berücksichtigung des Gewichts jeder Bindung und wenden die Aktivierungsfunktion an (in unserem Fall gibt es keine Aktivierungsfunktion). Lassen Sie uns die Berechnungen für das erste Element im Trainingssatz durchführen:

y_{p r e d i c t e d} = \sum_{i = 1}^{n} x_{i} w_{i} = 1 \cdot 0.1 + 0.5 \cdot 0.2 = 0.2

$y_{predicted}=\sum_{i=1}^{n}{x_iw_i}=1\cdot0.1+0.5\cdot0.2=0.2$

Abbildung 6 - Vorwärtsausbreitung des Fehlers

Beachten Sie, dass die obige Formel eine vereinfachte mathematische Gleichung für den Spezialfall von Tensoroperationen ist.

Ein Tensor ist im Wesentlichen ein Datencontainer, der N Achsen und eine beliebige Anzahl von Elementen entlang jeder der Achsen haben kann. Die meisten Tensoren kennen sich mit Mathematik aus - Vektoren (Tensor mit einer Achse), Matrizen (Tensor mit zwei Achsen - Zeilen, Spalten).

Die Formel kann in der folgenden Form geschrieben werden, in der Sie die bekannten Matrizen (Tensoren) und ihre Multiplikation sehen und auch verstehen, welche Art von Vereinfachung oben diskutiert wurde:

{\vec{Y}}_{p r e d i c t e d} = {\vec{X}}^{T} \vec{W} = {[\begin{matrix} x_{1} \\ x_{2} \end{matrix}]}^{T} \cdot [\begin{matrix} w_{1} \\ w_{2} \end{matrix}] = [\begin{matrix} x_{1} & x_{2} \end{matrix}] \cdot [\begin{matrix} w_{1} \\ w_{2} \end{matrix}] = [x_{1} w_{1} + x_{2} w_{2}]

${\vec{Y}}_{predicted}=\ {\vec{X}}^T\vec{W}=\left[\begin{matrix}x_1\\x_2\\\end{matrix}\right]^T\cdot \left [ \begin{matrix} w_1\\ w_2 \end{matrix} \right ]=\left [ \begin{matrix} x_1 & x_2 \end{matrix} \right ] \cdot \left [ \begin{matrix} w_1\\ w_2 \end{matrix} \right ] =\left [ x_1w_1+x_2w_2 \right ]$

SCHRITT 2 - Berechnen der Fehlerfunktion

Die Fehlerfunktion ist eine Metrik, die die Diskrepanz zwischen der erwarteten und der empfangenen Ausgabe widerspiegelt. Die folgenden Fehlerfunktionen werden häufig verwendet:

- Mittlerer quadratischer Fehler (MSE) - Diese Fehlerfunktion reagiert besonders empfindlich auf Ausreißer im Trainingssatz, da sie das Quadrat der Differenz zwischen den tatsächlichen und erwarteten Werten verwendet (ein Ausreißer ist ein Wert, der sehr weit von anderen Werten in entfernt ist Datensatz, der manchmal aufgrund von Datenfehlern auftreten kann, z. B. beim Mischen von Daten mit verschiedenen Maßeinheiten oder schlechten Sensorwerten):

L = \frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2}

$L=\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2$

- Root Mean Square Deviation (Root MSE) - Dies entspricht zwar dem Root Mean Square Error im Kontext neuronaler Netze, kann jedoch eine reale physikalische Maßeinheit widerspiegeln. Wenn in einem neuronalen Netz beispielsweise die Ausgabeparameter eines neuronalen Netzes der Preis eines Hauses in Dollar sind, dann die Maßeinheit Der mittlere quadratische Fehler ist der quadratische Dollar (

$^{2}

$$^2$ ), und für die Standardabweichung ist es Dollar ($), was die Aufgabe der menschlichen Analyse natürlich leicht vereinfacht:

L = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2}}

$L=\sqrt{\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2}$

- Die mittlere Abweichung (Mean Absolute Error, MAE) - ist im Gegensatz zu den beiden oben genannten Werten nicht so empfindlich gegenüber Ausreißern:

L = \frac{1}{N} \sum_{i = 1}^{N} | y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)} |

$L=\frac{1}{N}\sum_{i=1}^{N}\left|y_{predicted(i)}-y_{expected(i)}\right|$

- Kreuzentropie - Verwendung für Klassifizierungsaufgaben:

L = - \sum_{i = 1}^{N} \sum_{j = 1}^{M} y_{e x p e c t e d (i j)} \log (y_{p r e d i c t e d (i j)})

$L=-\sum_{i=1}^{N}\sum_{j=1}^{M}{y_{expected(ij)}\log(y_{predicted(ij)})}$

N

$N$ - die Anzahl der Kopien im Trainingssatz

M

$M$ - die Anzahl der Klassen bei der Lösung von Klassifizierungsproblemen

y_{e x p e c t e d}

$y_{expected}$ - erwarteter Ausgabewert

y_{p r e d i c t e d}

$y_{predicted}$ - der tatsächliche Ausgabewert des trainierten Modells

Für unseren speziellen Fall verwenden wir MSE:

L = \frac{1}{N} \sum_{i = 1}^{N} {(y_{p r e d i c t e d (i)} - y_{e x p e c t e d (i)})}^{2} = {(0.2 - 1)}^{2} = 0.64

$L=\frac{1}{N}\sum_{i=1}^{N}\left(y_{predicted(i)}-y_{expected(i)}\right)^2={(0.2-1)}^2=0.64$

SCHRITT 3 - Backpropagation

Das Ziel des Trainings des neuronalen Netzwerks ist einfach - es besteht darin, die Fehlerfunktion zu minimieren:

L \to m i n

$L\rightarrow min$

Eine Möglichkeit, das Minimum einer Funktion zu finden, besteht darin, die Verbindungsgewichte bei jedem nächsten Lernschritt - der Gradientenabstiegsmethode - in die dem Gradientenvektor entgegengesetzte Richtung zu ändern. Dies sieht mathematisch so aus:

{\vec{w}}^{(k + 1)} = {\vec{w}}^{k} - μ \nabla L ({\vec{w}}^{k})

${\vec{w}}^{(k+1)}={\vec{w}}^k-\mu\nabla L({\vec{w}}^k)$

k

$k$ - k-te Iteration des neuronalen Netzwerktrainings;

μ

$\mu$ - Die Lernrate wird vom Ingenieur festgelegt und kann normalerweise 0,1 betragen. 0,01 (wie sich der Lernschritt auf den Lernkonvergenzprozess auswirkt, etwas später beachten)

\nabla L

$\nabla L$ - der Gradient der Fehlerfunktion

Um den Gradienten zu finden, verwenden wir partielle Ableitungen in Bezug auf benutzerdefinierte Argumente

w_{1}, w_{2}

$w_1,w_2$ ::

\nabla L (\vec{w}) = [\begin{matrix} \frac{\partial L}{\partial w_{1}} \\ ⋮ \\ \frac{\partial L}{\partial w_{N}} \end{matrix}]

$\nabla L\left(\vec{w}\right)=\left[\begin{matrix}\frac{\partial L}{\partial w_1}\\\vdots\\\frac{\partial L}{\partial w_N}\\\end{matrix}\right]$

In unserem speziellen Fall hat die Fehlerfunktion unter Berücksichtigung aller Vereinfachungen die Form:

L (w_{1}, w_{2}) = {(y_{p r e d i c t e d} - y_{e x p e c t e d})}^{2} = {(x_{1} w_{1} + x_{2} w_{2} - y_{e x p e c t e d})}^{2} =

$L\left(w_1,w_2\right)={(y_{predicted}-y_{expected})}^2={(x_1w_1+x_2w_2-y_{expected})}^2=$

= {(1 \cdot w_{1} + 0.5 \cdot w_{2} - 1)}^{2}

$={(1\cdot w_1+0.5\cdot w_2-1)}^2$

Memo über abgeleitete Formeln

,

$\frac{d}{d x} c = 0; c = c o n s t$
$\frac{d}{dx}c=0;c=const$
$\frac{d}{d x} [c f (x)] = c f^{'} (x); c = c o n s t$
$\frac{d}{dx}\left[cf\left(x\right)\right]=cf^\prime\left(x\right);\ c=const$
$\frac{d}{d x} x^{n} = n x^{n - 1}$
$\frac{d}{dx}x^n=nx^{n-1}$

$\frac{d}{d x} [f (x) \pm g (x)] = f^{'} (x) \pm g^{'} (x)$
$\frac{d}{dx}\left[f\left(x\right)\pm g(x)\right]=f^\prime\left(x\right)\pm g^\prime(x)$
$\frac{d}{d x} [f (x) g (x)] = f^{'} (x) g (x) + g^{'} (x) f (x)$
$\frac{d}{dx}\left[f\left(x\right)g\left(x\right)\right]=f^\prime\left(x\right)g\left(x\right)+g^\prime\left(x\right)f\left(x\right)$
$\frac{d}{d x} f (g (x)) = f^{'} (g (x)) g^{'} (x)$
$\frac{d}{dx}f\left(g\left(x\right)\right)=f^\prime(g(x))g^\prime(x)$

Lassen Sie uns die folgenden partiellen Ableitungen finden:

\frac{\partial}{\partial w_{1}} {(w_{1} + 0.5 w_{2} - 1)}^{2} = 2 \cdot (w_{1} + 0.5 w_{2} - 1) \frac{\partial}{\partial w_{1}} (w_{1} + 0.5 w_{2} - 1) =

$\frac{\partial}{\partial w_1}{(w_1+0.5w_2-1)}^2=2\cdot\left(w_1+0.5w_2-1\right)\frac{\partial}{\partial w_1}\left(w_1+0.5w_2-1\right)=$

= 2 \cdot (w_{1} + 0.5 w_{2} - 1) \cdot 1 = 2 (0.1 + 0.5 \cdot 0.2 - 1) = - 1.6

$=2\cdot\left(w_1+0.5w_2-1\right)\cdot1=2\left(0.1+0.5\cdot0.2-1\right)=-1.6$

\frac{\partial}{\partial w_{2}} {(w_{1} + 0.5 w_{2} - 1)}^{2} = 2 \cdot (w_{1} + 0.5 w_{2} - 1) \frac{\partial}{\partial w_{2}} (w_{1} + 0.5 w_{2} - 1) =

$\frac{\partial}{\partial w_2}{(w_1+0.5w_2-1)}^2=2\cdot\left(w_1+0.5w_2-1\right)\frac{\partial}{\partial w_2}\left(w_1+0.5w_2-1\right)=$

= 2 \cdot (w_{1} + 0.5 w_{2} - 1) \cdot 0.5 = 2 (0.1 + 0.5 \cdot 0.2 - 1) \cdot 0.5 = - 0.8

$=2\cdot\left(w_1+0.5w_2-1\right)\cdot0.5=2\left(0.1+0.5\cdot0.2-1\right)\cdot0.5=-0.8$

Dann ist der Prozess der Rückausbreitung des Fehlers eine Bewegung entlang des Modells von der Ausgabe zur Eingabe mit Modifikation der Modellgewichte in der dem Gradientenvektor entgegengesetzten Richtung. Einstellen des Lernschritts 0.1 (Lernrate), den wir haben (Abbildung 7):

w_{1}^{(k + 1)} = w_{1}^{(k)} - μ \frac{\partial L (w_{1}, w_{2})}{\partial w_{1}} = 0.1 - 0.1 \cdot (- 1.6) = 0.26

$w_1^{(k+1)}=w_1^{(k)}-\mu\frac{\partial L\left(w_1,w_2\right)}{\partial w_1}=0.1-0.1\cdot\left(-1.6\right)=0.26$

w_{2}^{(k + 1)} = w_{2}^{(k)} - μ \frac{\partial L (w_{1}, w_{2})}{\partial w_{2}} = 0.2 - 0.1 \cdot (- 0.8) = 0.28

$w_2^{(k+1)}=w_2^{(k)}-\mu\frac{\partial L\left(w_1,w_2\right)}{\partial w_2}=0.2-0.1\cdot\left(-0.8\right)=0.28$

Abbildung 7 - Rückausbreitung des Fehlers

Daher haben wir k + 1 Trainingsschritte abgeschlossen, um sicherzustellen, dass der Fehler abgenommen hat und die Ausgabe des Modells mit neuen Gewichten näher an den Erwartungen liegt. Wir werden den Prozess der Vorwärtsausbreitung des Fehlers entlang des Modells mit neuen Gewichten durchführen (siehe SCHRITT 1). ::

y_{p r e d i c t e d} = x_{1} w_{1} + x_{2} w_{2} = 1 \cdot 0.26 + 0.5 \cdot 0.28 = 0.4

$y_{predicted}=x_1w_1+x_2w_2=1\cdot0.26+0.5\cdot0.28=0.4$

Wie Sie sehen können, hat sich der Ausgabewert in Richtung des erwarteten Ergebnisses um eins um 0,2 Einheiten erhöht - eins (1). Der Fehler wird dann sein:

L = {(0.4 - 1)}^{2} = 0.36

$L={(0.4-1)}^2=0.36$

Wie Sie sehen können, betrug der Fehler im vorherigen Trainingsschritt 0,64, und mit den neuen Gewichten - 0,36 haben wir das Modell daher in die richtige Richtung angepasst.

Nächster Teil des Artikels:

Maschinelles Lernen. Neuronale Netze (Teil 2): ODER-Modellierung; XOR mit TensorFlow.js

maschinellem Lernen. Neuronale Netze (Teil 3) - Faltungsnetzwerk unter dem Mikroskop. Erkunden der Tensorflow.js-API

Maschinelles Lernen. Neuronale Netze (Teil 1): Der Perceptron-Lernprozess

Neuronale Netze

Perceptron

Die Notiz

Perceptron-Lernprozess

More articles: