💯 🕙 🥀 Die Krise der Reproduzierbarkeit in der Forschung zur künstlichen Intelligenz 🐀 💪🏻 👩🏾‍⚖️

Die KI-Forschung wird von Technologiegiganten dominiert, aber die Grenze zwischen echten Durchbrüchen und kommerzieller Produktwerbung verschwimmt allmählich. Einige Wissenschaftler denken, es ist Zeit, dies zu stoppen.

Im vergangenen Monat veröffentlichte die Zeitschrift Nature eine missbräuchliche Rezension, die von 31 Wissenschaftlern unterzeichnet wurde. Die Google Health-Studie , die zuvor im selben Journal veröffentlicht worden war, gefiel ihnen nicht . Darin beschrieb Google die erfolgreichen Ergebnisse eines Tests mit künstlicher Intelligenz (KI), bei dem auf medizinischen Fotos nach Anzeichen von Brustkrebs gesucht wurde. Kritiker argumentieren, dass das Google-Team so wenig Informationen über den Code und den Testfortschritt geliefert habe, dass die Studie eher wie eine Werbebeschreibung einer geschlossenen, proprietären Technologie aussah.

"Wir konnten es nicht länger aushalten", sagt Benjamin Haibe-Caines, leitender Gutachter, der an der Universität von Toronto Computational Genomics studiert. "Und es geht nicht um diese spezielle Studie - wir beobachten seit vielen Jahren in Folge einen ähnlichen Trend, und das nervt uns wirklich."

Haibe-Kains und Kollegen gehören zu einer wachsenden Zahl von Wissenschaftlern, die sich dem offensichtlichen Mangel an Transparenz in der KI-Forschung widersetzen. "Nachdem wir diese Arbeit von Google gesehen hatten, stellten wir fest, dass dies nur ein weiteres Beispiel für eine Reihe begeisterter Veröffentlichungen in einer hoch angesehenen Zeitschrift war, die nichts mit Wissenschaft zu tun hatte", sagt er. - Dies ist eher eine Werbung für coole Technologie. Wir können nichts dagegen tun. "

Wissenschaft baut auf Vertrauen auf, einschließlich der Offenlegung der Details, wie Forschung durchgeführt wird, so detailliert, dass andere ihre Ergebnisse replizieren und validieren können. So korrigiert sich die Wissenschaft und entwurzelt unbestätigte Ergebnisse. Die Reproduzierbarkeit ermöglicht es anderen, ihre Arbeit auf diese Ergebnisse zu stützen, was dazu beiträgt, das Wissensgebiet voranzubringen. Wissenschaft, die nicht reproduziert werden kann, befindet sich am Rande der Geschichte.

Zumindest theoretisch. In der Praxis sind nur wenige Studien vollständig reproduzierbar, da die meisten Forscher mehr daran interessiert sind, neue Ergebnisse zu erzielen, als alte zu wiederholen. In Bereichen wie Biologie, Physik und Informatik erwarten die Forscher jedoch, dass die Autoren genügend Informationen zum Austausch bereitstellen, damit diese Experimente wiederholt werden können - auch wenn dies selten durchgeführt wird.

Ehrgeiziger Neuling

KI wird aus mehreren Gründen gescholten. Erstens ist es ein Anfänger. Es ist in den letzten zehn Jahren zu einer experimentellen Wissenschaft geworden, sagt Joel Pigno, Informatiker bei Facebook AI Research und der McGill University, der die Beschwerde mitverfasst hat. „Anfangs war es ein rein theoretischer Bereich, aber jetzt machen wir immer mehr Experimente“, sagt sie. "Und unser Engagement für eine strenge Methodik bleibt hinter den Ambitionen unserer Experimente zurück."

Dies ist nicht nur ein akademisches Problem. Der Mangel an Transparenz macht es unmöglich, neue KI-Modelle und -Technologien ordnungsgemäß auf Zuverlässigkeit, Verzerrungsfreiheit und Sicherheit zu testen. Die KI bewegt sich schnell von Forschungslabors in die reale Welt und wirkt sich direkt auf das Leben der Menschen aus. Modelle für maschinelles Lernen (ML), die im Labor gut funktionieren, können jedoch in der realen Welt kaputt gehen und möglicherweise gefährliche Konsequenzen haben. Die Reproduktion der Ergebnisse von Experimenten verschiedener Forscher unter verschiedenen Bedingungen wird mögliche Probleme schneller aufdecken, wodurch die KI für alle zuverlässiger wird.

AI leidet bereits unter dem "Black Box" -Problem: Manchmal ist es unmöglich zu sagen, wie oder warum ein ML-Modell genau dieses Ergebnis liefert. Mangelnde Transparenz in der Forschung macht die Sache nur noch schlimmer. Große Modelle erfordern so viele Beobachter wie möglich, damit mehr Menschen ihre Arbeit erfahren und verstehen können. Auf diese Weise können Sie den Einsatz von KI im Gesundheitswesen sicherer, in der öffentlichen Ordnung gerechter und in Chatrooms höflicher gestalten.

Die normale Reproduzierbarkeit von KI wird durch das Fehlen von drei Dingen beeinträchtigt: Code, Daten und Hardware. Der Zustand der KI im Jahr 2020 "Eine überprüfte jährliche Analyse der Investoren Nathan Benaich und Ian Hogarth ergab, dass nur 15% der KI-Forschung Code teilen. Branchenforscher verhalten sich eher schlecht als Universitätswissenschaftler. Insbesondere OpenAI-Unternehmen werden in dem Bericht hervorgehoben. und DeepMind, die ihren Code am seltensten teilen.

Der Mangel an Werkzeugen, die für die Reproduzierbarkeit erforderlich sind, ist bei den beiden Säulen der KI - Daten und Hardware - deutlicher zu spüren. Daten werden häufig in privaten Händen gehalten - zum Beispiel die Daten, die Facebook über seine Benutzer sammelt - oder sind sensibel, wie dies bei medizinischen Unterlagen der Fall ist. Technologiegiganten forschen immer mehr an riesigen und extrem teuren Computerclustern, zu denen nur wenige Universitäten oder kleine Unternehmen Zugang haben.

Zum Beispiel das Trainieren eines GPT-3-Sprachgenerators nach einigen SchätzungenOpenAI kostete 10 bis 12 Millionen US-Dollar - und dies nur, wenn wir das neueste Modell berücksichtigen, ohne die Kosten oder die Entwicklung und Schulung von Prototypen zu berücksichtigen. "Dann könnte diese Zahl wahrscheinlich um ein oder zwei Größenordnungen erhöht werden", sagt Benaich, Gründer der AI-Start-up-Venture-Capital-Firma Air Street Capital. Ein winziger Prozentsatz der großen Technologiefirmen kann es sich leisten, sagt er: "Niemand sonst kann so große Budgets für solche Experimente aufbringen."

Hypothetische Frage: Einige Menschen haben Zugang zu GPT-3, andere nicht. Was passiert, wenn neue Arbeiten entstehen, bei denen Personen außerhalb des OpenAI-Projekts GPT-3 verwenden, um aktuelle Ergebnisse zu erzielen?

Und das Hauptproblem ist: Wählt OpenAI gewinnende und verlorene Forscher?

Die Geschwindigkeit des Fortschritts ist schwindelerregend. Jedes Jahr werden Tausende von Werken veröffentlicht. Wenn Sie jedoch nicht wissen, wem Sie vertrauen können, ist es sehr schwierig, die Entwicklung dieses Bereichs zu fördern. Durch die Replikation können andere Forscher überprüfen, ob die Autoren nicht manuell die besten Ergebnisse erzielt haben und ob die neuen Technologien tatsächlich wie beschrieben funktionieren. „Es wird immer schwieriger, verlässliche Ergebnisse von den anderen zu unterscheiden“, sagt Piño.

Was kann man hier machen? Wie viele andere KI-Forscher teilt Pigno seine Zeit zwischen der Universität und den Unternehmenslabors auf. In den letzten Jahren hat sie das AI Research Publishing System aktiv beeinflusst. Zum Beispiel hat sie letztes Jahr dazu beigetragen, die Liste der Elemente zu bewerben, die Forscher in einem Beitrag zu einer der größten KI-Konferenzen, NeurIPS, bereitstellen müssen. Es enthält Code und eine detaillierte Beschreibung der Experimente.

Reproduzierbarkeit ist an sich wertvoll

Pinho hat auch dazu beigetragen, mehrere Wiederholbarkeitswettbewerbe zu starten, bei denen Forscher versuchen, die Ergebnisse veröffentlichter Forscher zu replizieren. Die Teilnehmer wählen auf Konferenzen akzeptierte Beiträge aus und konkurrieren miteinander, indem sie anhand der bereitgestellten Informationen Experimente durchführen. Sie erhalten zwar nur Anerkennung als Belohnung.

Mangelnde Motivation fördert nicht die Verbreitung solcher Praktiken in allen Forschungsbereichen, nicht nur in der KI. Fortpflanzung ist eine notwendige Sache, wird aber in keiner Weise gefördert. Eine Lösung für dieses Problem besteht darin, die Schüler in diese Arbeit einzubeziehen. In den letzten Jahren hat Rosemary Ke, Ph.D. von Mila, einem von Yoshua Benjio gegründeten Forschungsinstitut in Montreal, einen Wettbewerb zur Reproduzierbarkeit organisiert , in deren Rahmen die Studierenden versuchen, im Rahmen der Ausbildung an NeurIPS eingereichte Forschungsergebnisse zu reproduzieren. Einige der erfolgreichen Versuche werden von Experten begutachtet und in ReScience veröffentlicht.

"Die Arbeit eines anderen von Grund auf neu zu reproduzieren, ist sehr aufwändig", sagt Ke. „Der Reproduzierbarkeitswettbewerb belohnt diese Bemühungen und ehrt Menschen, die gute Arbeit leisten.“ Ke und andere sprechen auf KI-Konferenzen über diese Versuche und organisieren Workshops, um Forscher zu ermutigen, ihre Arbeit transparenter zu gestalten. die sieben größten KI-Konferenzen, einschließlich ICML und ICLR.

Ein weiteres Projekt zur Förderung der Transparenz heißt Papers with Code. Es wurde vom KI-Forscher Robert Stoinik organisiert, als er an der Universität von Cambridge arbeitete. Jetzt arbeiten er und Pinho auf Facebook zusammen. Das Projekt wurde zunächst als eigenständige Website gestartet, auf der Forscher von ihrer Arbeit auf ihren Code verlinken konnten. In diesem Jahr hat das Projekt eine Partnerschaft mit dem beliebten arXiv-Preprint-Server geschlossen. Seit Oktober haben alle auf arXiv veröffentlichten maschinellen Lernarbeiten einen Abschnitt "Papiere mit Code", in dem ein Link zu dem Code enthalten ist, den die Autoren der Arbeit veröffentlichen können. Ziel des Projekts ist es, die Verbreitung eines solchen Codes zur Norm zu machen.

Beeinflussen diese Versuche irgendetwas? Pigno stellte fest, dass im letzten Jahr, als die Liste der Voraussetzungen veröffentlicht wurde, die Anzahl der zur NeurIPS-Konferenz eingereichten Beiträge mit Code-Code von 50% auf 75% gestiegen war. Tausende von Gutachtern geben an, den Code zur Bewertung von Einsendungen verwendet zu haben. Die Zahl der Teilnehmer am Reproduzierbarkeitswettbewerb wächst.

Der Teufel steckt im Detail

Dies ist jedoch nur der Anfang. Haibe-Kains weist darauf hin, dass Code allein oft nicht ausreicht, um ein Experiment erneut auszuführen. Um KI-Modelle zu erstellen, müssen Sie viele kleine Änderungen vornehmen - fügen Sie dort einen Parameter hinzu, Wert hier. All dies kann dazu führen, dass ein Arbeitsmodell nicht mehr funktioniert. Ohne Metadaten, die beschreiben, wie die Modelle trainiert und optimiert werden, kann der Code nutzlos sein. "Der Teufel ist wirklich in den kleinen Dingen", sagt er.

Es ist auch nicht immer klar, welchen Code verteilt werden soll. Viele Labors verwenden spezielle Programme, um Modelle auszuführen. Manchmal handelt es sich um proprietäre proprietäre Software. Manchmal ist es auch schwierig zu sagen, welchen Code geteilt werden soll, sagt Haibe-Kains.

Pinho befasst sich nicht besonders mit solchen Hindernissen. „Von der Verbreitung des Codes ist viel zu erwarten“, sagt sie. Der Datenaustausch ist schwieriger, aber es gibt Lösungen. Wenn Forscher nicht in der Lage sind, Daten auszutauschen, können sie Anleitungen geben, wie sie selbst einen geeigneten Datensatz erfassen können. Oder Sie können dafür sorgen, dass eine kleine Anzahl von Gutachtern auf Daten zugreift, die die Ergebnisse für alle anderen validieren, sagt Khaibe-Kains.

Das größte Problem ist mit der Hardware. DeepMind behauptet, dass große Projekte wie AlphaGo oder GPT-3, für die große Labors Geld ausgeben, am Ende allen zugute kommen werden. KI, die in der Anfangsphase für andere Forscher unzugänglich ist, wird während der Entwicklung häufig effizienter und zugänglicher. "AlphaGo Zero hat seinen Vorgänger AlphaGo übertroffen und viel weniger Rechenleistung verbraucht", sagte Koray Kavukchuoglu, Vice President of Research bei DeepMind.

Theoretisch bedeutet dies, dass selbst wenn die Studie spät reproduziert wird, dies dennoch möglich ist. Kavukchuoglu merkt an, dass Jean-Carlo Pascutto, ein belgischer Programmierer bei Mozilla, der in seiner Freizeit Schach- und Go-Programme schreibt, eine Variante von AlphaGo Zero namens Leela Zero mithilfe der in DeepMinds Artikeln beschriebenen Algorithmen replizieren konnte. Pigno glaubt auch, dass Flaggschiff-Studien wie AlphaGo und GPT-3 selten sind. Sie sagt, dass der Großteil der KI-Forschung auf Computern arbeitet, die dem durchschnittlichen Labor zur Verfügung stehen. Und ein solches Problem gibt es nicht nur bei AI. Pinho und Benayhom weisen auf die Teilchenphysik hin, in der einige Experimente nur mit teuren Geräten wie dem Large Hadron Collider durchgeführt werden können.

Physikalische Experimente werden jedoch am LHC von mehreren Labors zusammen durchgeführt. Und große KI-Experimente werden normalerweise an Geräten durchgeführt, die privaten Unternehmen gehören und von diesen kontrolliert werden. Aber Pinho sagt, dass sich dies auch ändert. Beispielsweise stellt Compute Canada Computercluster zusammen, damit Universitäten große KI-Experimente durchführen können. Einige Unternehmen, einschließlich Facebook, gewähren Universitäten nur eingeschränkten Zugang zu ihren Geräten. "Die Situation ist nicht vollständig gelöst", sagt sie. "Aber einige Türen beginnen sich zu öffnen."

, . . Google, , Nature , , Google - .

: , , ( ). . .

Haibe-Kains Zweifel. Als er das Google Health-Team bat, den Code seiner Krebsdiagnose-KI weiterzugeben, wurde ihm mitgeteilt, dass der Code noch weiter getestet werden müsse. Das Team wiederholt dieselbe Ausrede in einer formellen Antwort auf die Kritik an Haibe-Kains, die ebenfalls in Nature veröffentlicht wurde. "Wir werden unsere Programme umfangreichen Tests unterziehen, bevor wir sie in einem klinischen Umfeld einsetzen. Dabei arbeiten wir mit Patienten, Dienstleistern und Aufsichtsbehörden zusammen, damit alles effizient und sicher funktioniert." Die Forscher gaben auch an, dass sie nicht alle von ihnen verwendeten medizinischen Daten teilen dürfen.

Das wird nicht funktionieren, sagt Khaibe-Kains. "Wenn sie daraus ein kommerzielles Produkt machen wollen, dann verstehe ich, warum sie nicht alle Informationen offenlegen wollen." Er ist jedoch der Ansicht, dass es Ihre Pflicht ist, Code zu veröffentlichen, den andere ausführen können, wenn Sie in einer wissenschaftlichen Zeitschrift oder auf einer Konferenz veröffentlichen. Manchmal ist es möglich, eine für uns geschulte Version mit weniger Daten oder mit weniger teurer Hardware zu veröffentlichen. Die Ergebnisse mögen schlechter sein, aber die Leute können daran basteln. „Die Grenze zwischen kommerzieller Produktherstellung und Forschung verwischt sich ständig“, sagt Haibe-Kains. "Ich denke, dieses Fachgebiet wird irgendwann scheitern."

Forschungsgewohnheiten sind schwer aufzugeben

Wenn Unternehmen für ihre Veröffentlichungsarbeit kritisiert werden, warum sollten sie sich dann darum kümmern? Ein Teil davon hat natürlich mit Öffentlichkeitsarbeit zu tun. Dies liegt jedoch hauptsächlich daran, dass die besten kommerziellen Labors voll von Universitätsforschern sind. In gewissem Maße ist die Kultur von Orten wie Facebook AI Research, DeepMind und OpenAI von traditionellen akademischen Gewohnheiten geprägt. Auch Tech-Unternehmen profitieren von der Teilnahme an der breiteren Forschungsgemeinschaft. Alle großen KI-Projekte in privaten Labors bauen auf einer Vielzahl von Ergebnissen veröffentlichter Forschungsergebnisse auf. Und nur wenige KI-Forscher haben Open-Source-ML-Tools wie PyTorch von Facebook oder TensorFlow von Google verwendet.

Je mehr Forschung bei Technologiegigantenunternehmen betrieben wird, desto mehr Kompromisse müssen zwischen Geschäfts- und Forschungsanforderungen eingegangen werden. Die Frage ist, wie Forscher diese Probleme angehen werden. Haibe-Kains möchte, dass Zeitschriften wie Nature ihre Veröffentlichungen in separate Streams aufteilen - reproduzierbare Forschung und Demonstration des technologischen Fortschritts.

Pinho blickt optimistischer in die Zukunft. "Ich würde nicht bei Facebook arbeiten, wenn es keinen offenen Forschungsansatz gäbe", sagt sie.

Andere Unternehmenslabors drängen ebenfalls auf Offenheit. "Wissenschaftliche Arbeit erfordert sorgfältiges Studium und Reproduzierbarkeit seitens anderer Forscher", sagt Kavukchuoglu. "Dies ist ein wichtiger Teil unseres Forschungsansatzes bei DeepMind."

"OpenAI hat sich zu etwas ganz anderem entwickelt als ein traditionelles Labor", sagt Kayla Wood, eine Unternehmenssprecherin. "Natürlich stellen sich Fragen für sie." Sie stellt fest, dass OpenAI im Rahmen der Initiative "Partnerschaft für KI" mit mehr als 80 kommerziellen und akademischen Organisationen zusammenarbeitet, um über langfristige Normen für die Veröffentlichung von Forschungsergebnissen nachzudenken.

Pinho glaubt, dass da etwas dran ist. Sie glaubt, dass KI-Unternehmen eine dritte Art der Forschung demonstrieren, irgendwo zwischen den beiden Haibe-Kains-Streams. Sie vergleicht die intelligenten Ergebnisse privater KI-Labors mit Pharmaunternehmen - letztere investieren Milliarden in die Arzneimittelentwicklung und behalten die meisten Ergebnisse für sich.

Die langfristigen Auswirkungen der von Pinho und anderen angewandten Praktiken bleiben abzuwarten. Werden sich Gewohnheiten dauerhaft ändern? Wie wird sich dies auf den Einsatz von KI außerhalb der Forschung auswirken? Viel hängt davon ab, in welche Richtung die KI geht. Der Trend zu größeren Modellen und Datensätzen, dem beispielsweise OpenAI folgt, wird eine Situation aufrechterhalten, in der den meisten Forschern keine erweiterten KI-Optionen zur Verfügung stehen. Andererseits könnten neue Technologien wie Modellkomprimierung und Wenig-Schuss-Lernen diesen Trend durchbrechen und es mehr Forschern ermöglichen, mit kleineren, effizienteren AIs zu arbeiten.

In jedem Fall werden große Unternehmen weiterhin die KI-Forschung dominieren. Und wenn es richtig gemacht wird, ist daran nichts auszusetzen, sagt Pigno: "Die KI verändert die Arbeitsweise von Forschungslabors." Der Schlüssel besteht darin, sicherzustellen, dass die breite Öffentlichkeit die Möglichkeit hat, sich an der Forschung zu beteiligen. Weil der Glaube an die KI, von der so viel abhängt, an der Spitze beginnt.

Die Krise der Reproduzierbarkeit in der Forschung zur künstlichen Intelligenz

Die KI-Forschung wird von Technologiegiganten dominiert, aber die Grenze zwischen echten Durchbrüchen und kommerzieller Produktwerbung verschwimmt allmählich. Einige Wissenschaftler denken, es ist Zeit, dies zu stoppen.

Ehrgeiziger Neuling

Reproduzierbarkeit ist an sich wertvoll

Der Teufel steckt im Detail

Forschungsgewohnheiten sind schwer aufzugeben

More articles: