🦂 👨🏿‍🚀 👎🏿 Was ist, wenn Ihr neuronales Netzwerk echte Telefonnummern von Personen in den generierten Texten enthält? 🗺️ 🗨️ 🐁

Wie man GPT-3 eindämmt

OpenAI bereitet sich darauf vor, eine kommerzielle API für GPT-3, sein neuestes und größtes neuronales Netzwerk zur Texterzeugung, zu eröffnen. In Vorbereitung erstellt das Unternehmen ein Inhaltsfiltersystem, um zu verhindern, dass persönliche Informationen von Personen veröffentlicht werden.

Ingenieure entwickeln dieses System beispielsweise so, dass die persönlichen Telefone der Menschen nicht ausgegeben werden. Die Arbeiten dauern seit über einem Jahr an, und das Labor für maschinelles Lernen in San Francisco erwartet, dass die API noch in diesem Jahr veröffentlicht wird.

Warum brauchen Sie so einen Filter?

Im Dezember 2020 haben Informatiker verschiedener Bildungseinrichtungen und Unternehmen - beispielsweise Stanford, UC Berkeley, OpenAI und Google - zusammengearbeitet, um zu zeigen, dass GPT-2, der Vorgänger von GPT-3, zur Aufnahme in den Text provoziert werden kann es erzeugt persönliche Informationen von Menschen. Zu diesen Informationen können Namen, Adressen, Telefonnummern und Sozialversicherungsnummern von Personen gehören.

Darüber hinaus stellte das Team fest, dass mindestens 0,1% aller von GPT-2 generierten Texte - und das ist konservativ geschätzt - lange Textblöcke aus Dokumenten im Trainingsdatensatz zitierten. Mit anderen Worten, Millionen von Seiten öffentlich zugänglichen Textes, die aus dem Internet zum Trainieren eines neuronalen Netzwerks gesammelt wurden, enthalten durchgesickerte oder fälschlicherweise veröffentlichte persönliche Informationen oder urheberrechtlich geschützten Inhalt. Und all diese Daten fließen in die Textausgabe von GPT-2 ein.

Das Forschungsteam stellte außerdem fest, dass persönliche Informationen auch aus Gesprächen mit GPT-2 abgerufen werden können, obwohl diese Einträge in den Trainingsdaten nur einmal vorkommen.

Und nicht nur diese Forscher haben dieses Problem bemerkt.

Hilary Mason, Mitbegründerin von Hidden Door, einer Online-Plattform für Textspiele, spielte mit dem öffentlichen Zugang zu GPT-2, als sie etwas Seltsames bemerkte. Am Ende der von einem neuronalen Netzwerk generierten Kriminalnachricht wurde eine Telefonnummer angegeben, und es wurde geschrieben, dass sie der Polizeibehörde in Oregon gehörte. Die ersten drei Ziffern, 503, deuteten darauf hin, dass es sich möglicherweise um eine reelle Zahl handelt - es war die Vorwahl für Portland, Salem und Beaverton. Es stellte sich heraus, dass die Nummer wirklich echt war, nur dass sie nicht der Polizei gehörte.

"Es kam mir seltsam vor", sagte Mason zu uns. - Ich wollte wissen, ob es sich um eine echte Zahl handelt, und habe im Internet danach gesucht. Es stellte sich heraus, dass es sich nicht um eine Polizeistationsnummer handelte, sondern um ein Gemeindezentrum aus Oregon. "

OpenAI-Neuronale Netze werden trainiert, um Text zu generieren, indem Muster in dem gefunden werden, was Menschen geschrieben haben. Dieses Wissen wird verwendet, um ein Wort vorherzusagen, das wahrscheinlich einem vom Benutzer bereitgestellten Text folgt. Auf diese Weise kann eine Person dem Programm den ersten Satz einer Geschichte oder eines Gedichts stellen oder eine Frage eingeben, und der Code generiert den Text, den das Programm als nächstes für erforderlich hält. Das neuronale Netzwerk wird Sätze und Absätze, Artikel und Antworten im Chat so konstruieren, dass sie auf den ersten Blick kohärent erscheinen, bei näherer Betrachtung jedoch als Müll erscheinen.

Einige Wörter sind enger verwandt als andere, und diese Muster werden von GPT-2 und GPT-3 nicht übersehen. Beispielsweise erscheint das Wort "Papier" eher neben den Wörtern "Schreiben" oder "Holz" als mit den Wörtern "Beton" oder "Schuh". Indem Sie Wörter wie "Anruf" oder "Telefon" eingeben, erhöhen Sie die Wahrscheinlichkeit, dass diese Sprachmuster mit etwas in Verbindung stehen, das eng mit diesen Konzepten zusammenhängt - beispielsweise mit den Telefonnummern von Personen.

Kreative Nutzung des Gedächtnisses?

Es ist schwer zu sagen, ob das Modell die Telefonnummer einer Person aus den Trainingsdaten ausgespuckt hat oder ob es nur ein paar Zufallszahlen zusammengestellt hat, die versehentlich in die richtige Nummer gefaltet wurden. Im obigen Beispiel hat Mason mit der Telefonnummer einer angeblichen Polizeistation in Oregon kein Eingabemodell bereitgestellt, das direkt eine Telefonnummer auslöst, die aus dem Speicher abgerufen werden soll. Sie bat GPT-2 einfach, einen Textausschnitt zu generieren, und erhielt einen fiktiven Artikel mit einer Telefonnummer des Gemeindezentrums.

Sie glaubt, dass in diesem Fall die Nummer in den GPT-2-Trainingsdaten vorhanden war und das neuronale Netzwerk sie gespeichert hat. Sie glaubt, dass die Wörter "Oregon" und "Kontakte" im Text das neuronale Netzwerk veranlassten, eine Telefonnummer herauszugeben. Es ist wahrscheinlich, dass diese Wörter neben den zehn Ziffern der Telefonnummer auf der Seite angezeigt wurden, die im Trainingsdatensatz gespeichert wurde.

Mason wollte wissen, wie wahrscheinlich es ist, dass GPT-2 eine echte Telefonnummer generiert, und bat das neuronale Netzwerk aus Neugier, Nummern mit den Ziffern 617 - der Vorwahl für Boston, Massachusetts - zu erstellen. Und GPT-2 gab eine Liste von Nummern wie 617-XXX-XXXX heraus, obwohl die meisten von ihnen keine gültigen Telefone waren. Es ist schwer zu sagen, ob sich das neuronale Netzwerk an die richtigen Zahlen erinnerte oder ob sie sich unbeabsichtigt herausstellten, als GPT-2 leere Räume mit Zufallszahlen füllte. Es ist möglich, dass sie manchmal eine Sequenz herausgibt, die sich als Telefonnummer von jemandem herausstellt.

"Es verwirrt die Fähigkeit, Daten aus Vorlagen zu erstellen und aus dem Speicher abzurufen", sagte Mason. - Sie gibt möglicherweise ohne Grund echte Telefonnummern heraus, aber die Wahrscheinlichkeit dafür steigt, wenn Sie sie direkt fragen. Die Sprachkonstruktionen, die eine Telefonnummer erfordern, sind nicht sehr unterschiedlich, daher ist es nicht verwunderlich, dass wir diese Nummern auf dem Weg nach draußen erhalten. "

Wenn GPT-3 in einem Chat oder in einem fiktiven Artikel eine Telefonnummer herausgibt, liegt dies wahrscheinlich daran, dass diese Nummern irgendwo im Internet gefunden und in die Trainingsdaten aufgenommen wurden, obwohl die Wahrscheinlichkeit gering ist, dass das neuronale Netzwerk sie erstellt hat aus Versehen, ohne sie früher zu treffen. Das Finden der richtigen Zahlen in den Trainingsdaten könnte diese Frage lösen.

Das Problem ist, dass diese Modelle, die nach dem Prinzip des maschinellen Lernens in einem kommerziellen Produkt - beispielsweise in einem Support-Chat - arbeiten, echte persönliche Daten einer Person ausgeben können, die diese nicht wollte oder nicht mehr veröffentlichen möchte und sicherlich nicht für den Zweck ihrer Verwendung in Chat-Bots geteilt. Stellen Sie sich vor, ein Angreifer möchte Opfer täuschen oder ihre Identität ausnutzen. Er muss lediglich ein Programm von OpenAI ausführen oder eine funktionierende Version von einem Anbieter finden und in einem Gespräch mit einem Bot personenbezogene Daten herausfinden.

Wissenschaftler und Ingenieure haben bereits festgestellt, dass eine solche Technologie gegen Gesetze zum Schutz personenbezogener Daten verstoßen kann, beispielsweise gegen die DSGVO in Europa oder die CCPA in Kalifornien. Sind die in den neuronalen Netzwerkbasen gespeicherten personenbezogenen Daten als Trainingsbasen, als Gewichte oder andere Mengen ausreichend geschützt? Was ist, wenn jemand nach dem Löschen seiner Daten fragt - muss ich das Netzwerk neu trainieren? Oder können wir sie einfach aus der Datenbank löschen? Forscher betrachten diesen Bereich als rechtlich unscharf.

Es sollte beachtet werden, dass das Risiko eines Schadens heute minimal ist - es ist ziemlich schwierig sicherzustellen, dass personenbezogene Daten in der Ausgabe des Sprachmodells erscheinen, außerdem wird das System auf Daten geschult, von denen die meisten öffentlich sind. Es besteht jedoch die Befürchtung, dass diese Systeme im Laufe der Zeit leistungsfähiger werden und immer mehr Daten aus immer mehr Quellen verbrauchen. Wenn Ingenieure nicht sorgfältig darüber nachdenken, wie ihre Kreationen für schlechte Zwecke verwendet werden können, besteht daher das Risiko, dass KI-Tools, die jedem zur Verfügung stehen, personenbezogene Daten von Personen preisgeben.

Ariel Herbert-Voss, einer der Forscher, die OpenAI untersuchten, sagte, dass GPT-2 und GPT-3 in etwa 20% der Fälle Text generieren, der Informationen enthält, die persönlichen Daten ähneln. Darüber hinaus erweisen sich die Daten selbst in 1% der Fälle als real. Versuche, eine bestimmte Telefonnummer zu erhalten, sind in etwa 1% der Fälle erfolgreich.

Die Chancen mögen Ihnen dürftig erscheinen, aber wenn Sie sie auf Tausende und Millionen von Gesprächen skalieren, können Informationslecks zu einem Problem werden. OpenAI, das sich auf die Veröffentlichung von GPT-3 vorbereitet, setzt nicht auf Zufall und erstellt einen Filter, der den generierten Text nicht nur aus Telefonnummern, sondern auch aus problematischen persönlichen Daten löscht.

Stellen Sie sich vor, Sie können, bis es funktioniert

Das Sammeln von Daten mit einem maschinellen Lernprogramm ist ein zweischneidiges Schwert. Es ist nicht gut für ein Modell, sich plötzlich an Ihre Telefonnummer zu erinnern, aber die Technologie dahinter kann von Vorteil sein.

Brad Dwyer, Gründer und CTO des Computer Vision Startups Roboflow, arbeitete an einem verwandten Projekt namens Stack Roboflow. Er trainierte das GPT-2-Modell auf der Stack Overflow Q & A-Site, um zu prüfen, ob es nützliche Antworten auf Codierungsfragen liefern kann. Er wollte ein Sprachmodell schaffen, das nicht nur natürliche Sprache, sondern auch Programmiersprachen verstehen kann, um Menschen bei der Lösung von Programmierproblemen zu helfen. Frühe Experimente zeigten jedoch, dass die Erwartungen an das Modell zu hoch waren.

Das Stack Roboflow-Tool, das Antworten auf Fragen generiert, ist nur dann nützlich, wenn die Fragen korrekt und korrekt gestellt sind - schließlich ist das Thema Programmierung sehr technologisch. Daher ist es notwendig, sich die erforderlichen Informationen wörtlich zu merken: zum Beispiel genaue Auszüge aus Programmen zu geben oder funktionierende Links zu realen Repositorys und Dokumentationen bereitzustellen. Bisher kann das GPT-2-Modell dies aufgrund der Variabilität seiner Ausgabe nicht bewältigen.

"Sie passte nicht zu der Aufgabe", sagte Dwyer. „Auf den ersten Blick sah der Text glaubwürdig aus, sah aus wie eine Nerd-Sprache, enthielt Links zu Dokumentationen und Websites, aber oft waren diese Links nur erfunden. Manchmal hat das System jedoch auch echte URLs zurückgegeben. “

„Sprachmodelle müssen in der Lage sein, viel zu lernen und gleichzeitig Daten selektiv bereitzustellen. Wir möchten ein nützliches Tool erhalten, das Daten nicht versehentlich speichert - der Datenfluss muss gesteuert werden. Er kennt vielleicht eine Reihe von Telefonnummern, aber wir möchten, dass er keine persönlichen Informationen preisgibt. Die Inhaltsfilterung bleibt eine offene Aufgabe. "

Im Allgemeinen kann die OpenAI-Technologie bestimmte Details wie Links zu Bibliotheken und Dokumentationen nicht zuverlässig abrufen, um sie in Anwendungen wie Stack Roboflow auszuführen. Gleichzeitig ist sie gut genug, um versehentlich die persönlichen Daten einer Person in einem Gespräch auszuspucken.

Wenn Sie längere Zeit mit Autos sprechen, wird der Dialog merkwürdig. Massive neuronale Netze zur Erzeugung von Text können fantastische Geschichten über sprechende Einhörner produzieren. Sie können dazu verleitet werden, dystopische Aufsätze zu schreiben, die vor den Gefahren der KI warnen. Für eine praktischere Verwendung spucken sie manchmal die Telefonnummern von Personen aus.

Das Erscheinen realer persönlicher Informationen in den von KI-Modellen erzeugten Daten hat uns schon früher Angst gemacht. Forscher haben uns jahrelang gewarnt, dass Modelle des maschinellen Lernens Informationen erzeugen können, die in Trainingsdaten enthalten sind. Alle Arten von neuronalen Netzen sind von dieser Funktion betroffen, nicht nur Giganten wie GPT-2 und GPT-3 von OpenAI oder Meena von Google.

Der GPT-3-Filter von OpenAI überprüft die Ausgabe, indem der Text neu geschrieben und potenziell echte Telefonnummern durch zufällige ersetzt werden. Wenn er beispielsweise eine zehnstellige Nummer sieht, die mit einer realen Vorwahl beginnt, ersetzt er diese durch etwas offensichtlich Falsches wie 111-111-1111 oder 012-345-6789. Andere Arten von Informationen, wie z. B. Adressen, sind nicht so klar strukturiert und daher schwieriger herauszufiltern. OpenAI sucht nach einer intelligenteren und eleganteren Lösung als nur einer Reihe regulärer Ausdrücke im Code.

Die Adressen enthalten Zahlen und Wörter in verschiedenen Formaten, Längen und Schreibweisen. Der ausgehende Filter muss klar sein, wann ein Zeichensatz wie eine Adresse oder eine andere Form von persönlichen Daten aussieht und wann er unschuldiger aussieht. Der Text enthält möglicherweise Hinweise wie die Wörter "Straße" oder Zahlen, die wie Postleitzahlen aussehen. Dies ist jedoch nicht immer offensichtlich, und der Filter lässt wahrscheinlich einige Ausnahmen zu.

Außerdem können persönliche Daten nicht aus den Trainingsdaten entfernt werden. Aus diesem Grund kann ein nützlicher Kontext, der für das Training eines neuronalen Netzwerks wichtig ist, verschwinden. Möglicherweise muss sie die Verbindungen zwischen Adressen, Telefonnummern und Namen sowie die damit verbundenen Wörter berücksichtigen, um beispielsweise zu verstehen, ob es sich bei einer Passage um ein Unternehmen oder eine Familie, einen geliebten Menschen oder eine Beschwerde über eine Organisation handelt. Und so weiter - deshalb wird der Ausgangsfilter benötigt.

"Bei vielen Modellen muss man sehr vorsichtig sein, wenn man den generierten Text direkt an den Benutzer weiterleitet, ohne ihn zu verarbeiten oder öffentlich zugänglich zu machen", sagte Mason.

„Dieses spezielle Problem mit persönlichen Informationen ist nicht so gefährlich wie die Menge an Voreingenommenheit und unangemessenen Aussagen, die ein neuronales Netzwerk erzeugen kann. Sie müssen mit Vorsicht arbeiten und darüber nachdenken, wo und was schief gehen könnte. Für reale Anwendungen sind mehrstufige Tests erforderlich. "

Derzeit haben nur einige wenige Betatester über die API Zugriff auf GPT-3, und OpenAI plant, den Benutzern Geld für den Zugriff auf das Modell in Rechnung zu stellen. Das Unternehmen hat das beschriebene Problem nicht kommentiert.

Was ist, wenn Ihr neuronales Netzwerk echte Telefonnummern von Personen in den generierten Texten enthält?

Wie man GPT-3 eindämmt

Warum brauchen Sie so einen Filter?

Kreative Nutzung des Gedächtnisses?

Stellen Sie sich vor, Sie können, bis es funktioniert

More articles: