Die technologische Welt hat einen neuen Hype angenommen - GPT-3.

Riesige Sprachmodelle (wie GPT-3) überraschen uns immer mehr mit ihren Fähigkeiten. Während das Vertrauen der Unternehmen in sie nicht ausreicht, um sie ihren Kunden zu präsentieren, zeigen diese Modelle die Anfänge der Intelligenz, die die Entwicklung der Automatisierung und die Fähigkeiten "intelligenter" Computersysteme beschleunigen wird. Lassen Sie uns die Aura des Geheimnisses aus GPT-3 herausnehmen und herausfinden, wie es lernt und wie es funktioniert.

Das trainierte Sprachmodell generiert Text. Wir können auch Text an die Eingabe des Modells senden und sehen, wie sich die Ausgabe ändert. Letzteres wird aus dem, was das Modell während der Trainingsperiode "gelernt" hat, durch Analyse großer Textmengen generiert.

Lernen ist der Prozess der Übertragung einer großen Textmenge auf ein Modell. Für GPT-3 ist dieser Prozess abgeschlossen und alle Experimente, die Sie sehen können, werden auf dem bereits trainierten Modell ausgeführt. Es wurde geschätzt, dass die Schulung 355 GPU-Jahre (355 Jahre Schulung auf einer einzelnen Grafikkarte) dauern und 4,6 Millionen US-Dollar kosten würde.

02-gpt3-Training-Sprachmodell

Ein Datensatz von 300 Milliarden Text-Token wurde verwendet, um Beispiele für das Training des Modells zu generieren. So sehen beispielsweise drei Trainingsbeispiele aus, die aus einem Satz oben abgeleitet wurden.

, , .

gpt3-training-beispiele-schiebefenster

( ) .

. , .

03-gpt3-training-step-back-prop

GPT-3 ( , – ).

04-gpt3-generate-tokens-output

, — GPT-3, , ( ). – , .

GPT-3 . , , 175 ( ). .

, , .

gpt3-parameter-gewichte

– , – , .

« Youtube» – 175- .

, , .

GPT-3 2048 – « », 2048 , .

05-gpt3-generate-output-context-window

. «robotics» «A»?

( ).
.
.

06-gpt3-Einbettung

GPT-3 96 .

? «» « » (deep learning).

1.8 . «». :

07-gpt3-Verarbeitungstransformatorblöcke

, , GTP-2 .

GPT-3 (dense) (sparse) (self-attention).

«Okay human» GPT-3. , . : , . .

08-gpt3-Token-Transformator-Blöcke

React ( ), , => . React , , .

Es kann davon ausgegangen werden, dass die ersten Beispiele und Beschreibungen zusammen mit speziellen Token, die die Beispiele vom Ergebnis trennen, zur Eingabe des Modells hinzugefügt wurden.

09-gpt3-Generieren-Reagieren-Code-Beispiel

Die Art und Weise, wie es funktioniert, ist beeindruckend. Sie müssen nur warten, bis die GPT-3-Feinabstimmung abgeschlossen ist. Und die Möglichkeiten werden noch erstaunlicher sein.

Durch das Optimieren werden lediglich die Modellgewichte aktualisiert, um die Leistung für eine bestimmte Aufgabe zu verbessern.

10-gpt3-Feinabstimmung

Autoren

Ursprünglicher Autor - Jay Alammar
Übersetzung - Ekaterina Smirnova
Bearbeitung und Layout - Sergey Shkarin

GPT-3 in Bildern: Ein Überblick

Autoren

More articles: