Voidgap GPT-3: Der Sprachgenerator von OpenAI hat keine Ahnung, wovon er spricht

Tests zeigen, dass die beliebte KI in der RealitÀt immer noch schlecht vertraut ist







Seit OpenAI im Mai erstmals sein neues textgenerierendes System fĂŒr kĂŒnstliche Intelligenz (KI) GPT-3 beschrieben hat, haben Hunderte von Nachrichtenagenturen, darunter der MIT Technology Review , zahlreiche Artikel ĂŒber das System und seine Funktionen verfasst. Seine StĂ€rken und Potenziale werden auf Twitter aktiv diskutiert. Die New York Times hat einen langen Artikel zu diesem Thema veröffentlicht. OpenAI wird in diesem Jahr damit beginnen, Unternehmen GebĂŒhren fĂŒr den Zugang zu GPT-3 in Rechnung zu stellen, in der Hoffnung, dass ihr System bald das RĂŒckgrat einer breiten Palette von AI-Produkten und -Diensten wird.



Kann GPT-3 als wichtiger Schritt in Richtung Allzweck-KI (ION) angesehen werden - ein Schritt, der es einer Maschine wie einer Person ermöglicht, logisch in einem weiten Bereich zu argumentieren, ohne jede neue Aufgabe neu lernen zu mĂŒssen? Das Datenblatt von OpenAI behandelt dieses Problem eher spĂ€rlich, aber fĂŒr viele Menschen scheinen die Funktionen dieses Systems ein bedeutender Fortschritt zu sein.



Aber wir bezweifeln es. Auf den ersten Blick bietet GPT-3 eine beeindruckende FĂ€higkeit, menschenĂ€hnlichen Text zu erstellen. Wir haben keinen Zweifel daran, dass damit surreale Texte zum Spaß geliefert werden können. Andere kommerzielle Anwendungen können erscheinen. Aber Genauigkeit ist nicht ihre StĂ€rke. Ein tieferes Graben zeigt, dass etwas fehlt: Obwohl ihre Ausgabe grammatikalisch korrekt und aus idiomatischer Sicht beeindruckend ist, widerspricht ihr VerstĂ€ndnis der Welt manchmal ernsthaft der RealitĂ€t, sodass man niemals vertrauen kann, was sie sagt.



Im Folgenden finden Sie einige Beispiele fĂŒr das UnverstĂ€ndnis von AI, die alle in einer frĂŒhen Kritik an GPT-3 von einem der Autoren dieses Materials vorhergesagt wurden .



Erstens ist anzumerken, dass OpenAI Forschern trotz des Firmennamens [ offene KI - "offene KI" / ca. ĂŒbers. ] und den gemeinnĂŒtzigen Status der Aufsichtsorganisation. Stattdessen ignoriert OpenAI einfach unsere stĂ€ndigen Anfragen, obwohl es der Presse Zugriff auf das Produkt gewĂ€hrt hat. GlĂŒcklicherweise hat unser Kollege Douglas Summers-Stay, der Zugang zum System erhalten hat, freundlicherweise zugestimmt, einige Experimente fĂŒr uns durchzufĂŒhren.



Die auffĂ€llige NĂ€he von OpenAI scheint uns ein schwerwiegender Verstoß gegen die wissenschaftliche Ethik und eine Verzerrung der Ziele der mit diesem Projekt verbundenen gemeinnĂŒtzigen Organisation zu sein. Diese Entscheidung zwang uns, unsere Experimente auf eine relativ kleine Anzahl von Beispielen zu beschrĂ€nken, und wir hatten weniger Zeit fĂŒr Recherchen als wir wollten. Daraus folgt, dass das System möglicherweise schwerwiegendere Probleme hat, die wir nicht erkennen konnten. Aber selbst mit einer kleinen Stichprobe kann man sofort die großen Probleme von GPT-3 in allen Bereichen des Denkens und Verstehens erkennen.



In den angegebenen Beispielen wird unser Text in normaler Schrift angegeben, und die Art und Weise, wie das System ihn ergÀnzt, ist fett gedruckt. Kommentare sind kursiv gedruckt. Eine vollstÀndige Liste der Experimente finden Sie hier .



Argumentation zu biologischen Themen



, . . , , . . .



.


, GPT-3 , – , , , , Ocean Spray , Cran-Grape.





. . , , . , .


. ( – ) , . , , - . , . , , . , [table saw] – [saw], [table] – , ( ), .





, . , , . . , . , . , , .


« », , GPT-3 , . , . , , .





, . ? .


GPT-3 . GPT-3.





, . : « ». « », — . « . ». « », — .


GPT-3 , , . , « » ( « »). 1972 . 50 , .





, , . , . , . , 145 .




Zuerst sagt GPT-3 die Konsequenzen des RĂŒhrens von Limonade mit einer Zigarette falsch voraus und fĂ€llt dann im Allgemeinen in inkohĂ€renten Unsinn.



Das Traurige ist, dass dies nichts Neues ist. Der VorgĂ€nger GPT-3 (GPT-2) hatte die gleichen SchwĂ€chen. Ein Autor schrieb im Februar: „Bestenfalls kann ein System wie das viel diskutierte neuronale Netzwerk GPT-2, das auf der Grundlage gegebener Satzfragmente Geschichten usw. generiert, etwas sagen, das tiefes VerstĂ€ndnis zu reflektieren scheint. Aber egal wie ĂŒberzeugend viele Beispiele ihrer Arbeit erscheinen, tatsĂ€chlich sind alle diese Darstellungen sehr kurzlebig. Das von modernen neuronalen Netzen gesammelte Wissen bleibt fragmentarisch und minimalistisch. Vielleicht nĂŒtzlich, definitiv beeindruckend, aber niemals zuverlĂ€ssig. "



Seitdem hat sich wenig geĂ€ndert. Das HinzufĂŒgen neuer Daten, die hundertmal grĂ¶ĂŸer sind als die vorherigen, hat geholfen, aber nicht viel. Die Forscher gaben Millionen von Dollar fĂŒr Computerzeit aus, um das System zu trainieren, warfen 31 Personen hinein und emittierten aufgrund des Stromverbrauchs eine erstaunliche Menge Kohlendioxid in die AtmosphĂ€re - aber die grundlegenden MĂ€ngel von GPT sind nicht verschwunden. Das System hat keine ZuverlĂ€ssigkeit, das VerstĂ€ndnis der KausalitĂ€t ist schwach und es entsteht stĂ€ndig Unlogik. GPT-2 hatte Probleme mit dem Denken in Biologie, Physik, Psychologie und sozialen Interaktionen sowie die Tendenz, unlogisch und inkonsistent zu sein. Das GPT-3 hat das gleiche.



Das Erhöhen der Datenmenge entspricht in etwa der Sprache, gibt uns jedoch keine Informationen, denen wir vertrauen können.



Verteidiger des Glaubens an KI werden definitiv darauf hinweisen, dass es oft möglich ist, diese Aufgaben so umzuformulieren, dass das GPT-3-System die richtige Lösung findet. Sie können beispielsweise die richtige Antwort auf das Problem mit Preiselbeer- und TraubensÀften von GPT-3 erhalten, wenn Sie die folgende Konstruktion als Eingabe angeben:

In den folgenden Fragen haben einige Aktionen schwerwiegende Konsequenzen und andere sind sicher. Ihre Aufgabe ist es, die Folgen der Verwendung verschiedener Gemische und deren Gefahren zu ermitteln.



1. Sie gießen sich ein Glas Cranberrysaft ein, fĂŒgen dann aber geistesabwesend einen Teelöffel Traubensaft hinzu. Er sieht gut aus. Du versuchst es zu schnĂŒffeln, aber du hast eine schlimme ErkĂ€ltung, damit du nicht riechst. Du bist sehr durstig. Du trinkst es.



A) Dies ist eine gefÀhrliche Mischung.

B) Dies ist eine sichere Mischung.



Korrekte Antwort:


GPT-3 setzt diesen Text korrekt fort, indem es antwortet: B) Dies ist eine sichere Mischung.



Das Problem ist, dass Sie nicht im Voraus wissen, welche Formulierung Ihnen die richtige Antwort gibt und welche nicht. Jeder Hinweis auf Erfolg ist gut fĂŒr den Optimisten. Optimisten werden argumentieren, dass GPT-3 in einigen Formulierungen die richtige Antwort gibt und das System ĂŒber die erforderlichen Kenntnisse und DenkfĂ€higkeiten verfĂŒgt - es wird nur durch die Sprache verwirrt. Das Problem liegt jedoch nicht in der Syntax von GPT-3 (hier ist alles in Ordnung), sondern in der Semantik: Das System kann englische Wörter und SĂ€tze produzieren, aber es ist schwer vorstellbar, welche Bedeutung sie haben, und sie reprĂ€sentieren ĂŒberhaupt nicht ihre Verbindung mit der Außenwelt.



Um zu verstehen, warum dies so ist, ist es hilfreich, darĂŒber nachzudenken, was diese Systeme tun. Sie bekommen kein Wissen ĂŒber die Welt - sie bekommen Wissen ĂŒber den Text und wie Menschen einige Wörter zusammen mit anderen verwenden. Sie macht so etwas wie massives Kopieren und EinfĂŒgen und setzt Variationen des Textes zusammen, den sie gesehen hat, anstatt tiefer in die Konzepte dahinter einzudringen.



Im Cranberry-Saft-Beispiel setzt GPT-3 den Text mit dem Satz „Du bist tot“ fort, da ein solcher Satz hĂ€ufig auf SĂ€tze wie „
 damit du nicht riechst. Du bist sehr durstig. Also trinkst du ihn“ folgt. Ein wirklich intelligenter Mensch wĂŒrde etwas völlig anderes tun: eine Schlussfolgerung ĂŒber die potenzielle Sicherheit des Mischens von Cranberrysaft mit Traubensaft ziehen.



GPT-3 hat nur ein enges VerstĂ€ndnis dafĂŒr, wie Wörter miteinander in Beziehung stehen. Aus diesen Worten zieht sie keine Schlussfolgerungen ĂŒber eine blĂŒhende und lebendige Welt. Sie kommt nicht zu dem Schluss, dass Traubensaft ein GetrĂ€nk ist (obwohl sie verbale ZusammenhĂ€nge finden kann, um dies zu unterstĂŒtzen). Sie zieht keine Schlussfolgerungen ĂŒber soziale Normen, die Menschen daran hindern, in Badehosen zu Gerichtsverhandlungen zu gehen. Sie lernt nur Wortkorrelationen, nichts weiter. Der Traum eines Empirikers ist es, ein detailliertes VerstĂ€ndnis der Welt auf der Grundlage von Daten seiner Sinne zu erlangen, aber GPT-3 wird dies selbst mit einem halben Terabyte Eingabedaten nicht tun.



WĂ€hrend wir diesen Artikel schrieben, schrieb unser Kollege Summers-Stay, eine gute Metapher, an einen von uns: „GPT ist komisch, weil es nicht wichtig ist, die richtige Antwort auf eine gestellte Frage zu bekommen. Sie sieht eher aus wie eine Improvisationsschauspielerin, die sich ganz ihrer Kunst hingibt, das Bild nicht verlĂ€sst, aber niemals das Haus verlĂ€sst und alle Informationen ĂŒber die Welt aus BĂŒchern erhalten hat. Wie ein Schauspieler wie dieser gibt sie nur vor, es zu wissen, wenn sie etwas nicht weiß. Sie werden dem medizinischen Rat eines improvisierenden Schauspielers, der einen Arzt spielt, nicht vertrauen. "



Außerdem sollten Sie den RatschlĂ€gen von GPT-3 zum Mixen von GetrĂ€nken oder zum Umstellen von Möbeln, der ErklĂ€rung der Geschichte fĂŒr Ihr Kind oder der Suche nach Ihrer WĂ€sche nicht vertrauen. Sie kann ein mathematisches Problem richtig lösen oder auch nicht. Es gibt alle Arten von Bullshit wunderschön heraus, aber selbst mit 175 Milliarden Parametern und 450 Gigabyte Eingabedaten kann es nicht als zuverlĂ€ssiger Interpret der Welt bezeichnet werden.



All Articles