Wenn Ihre Daten verschmutzt sind

Die folgende Geschichte ist ein gutes Beispiel dafür, wie KI die falsche Vorstellung von dem Problem bekommt, das wir lösen möchten:



Forscher der Universität Tübingen trainierten ein neuronales Netzwerk, um Bilder zu erkennen , und fragten dann, welche Teile der Bilder für eine Entscheidung am wichtigsten waren. Als sie das neuronale Netzwerk aufforderten, die wichtigsten Pixel für die Kategorie Schleie (Fischarten) hervorzuheben, wurde







Folgendes hervorgehoben: Rosa menschliche Finger auf grünem Hintergrund.



Menschliche Finger auf grünem Hintergrund!



Warum suchte sie auf den Fotos nach Fingern, wenn sie nach Fischen suchen musste? Es stellte sich heraus, dass die meisten Schleienbilder im Datensatz Bilder von Menschen waren, die Fische als Trophäe hielten. Sie hat keinen Zusammenhang damit, was die Schleie wirklich ist, also nimmt sie an, dass die Finger Teil des Fisches sind.



Das neuronale Netzwerk, das Bilder in ArtBreeder ( BigGAN ) generiert, wurde mit demselben ImageNet-Dataset trainiert. Wenn Sie es auffordern , eine Linie zu generieren, geschieht dasselbe:





Vier Bilder sind weiße Personen, die etwas Grünes und Geflecktes halten. In einigen Bildern hat das grüne Ding eine fischartigere Textur, aber nirgends gibt es einen klaren Kopf und Schwanz. Es ist nur ein großer Fischkörper. Die unteren Flossen sind aufwendig mit vielen rosa menschlichen Fingern vermischt



Menschen sind viel ausgeprägter als Fische, und ich bin fasziniert von den stark übertriebenen menschlichen Fingern.



Es gibt andere Kategorien in ImageNet mit ähnlichen Problemen. Hier ist ein Mikrofon.





Vier Bilder mit einem sehr dunklen Hintergrund. Oben links ähnelt die Form einem Mikrofon mit einer flauschigen Schallwand oder einem Kopf aus grauem Menschenhaar. Andere sehen aus wie Menschen Das



neuronale Netzwerk hat die kontrastierende Beleuchtung der Szene und der menschlichen Form erkannt, aber viele der Bilder enthalten nichts, was einem Mikrofon aus der Ferne ähnelt. In vielen Fotos des Trainingskits ist das Mikrofon ein winziger Teil des Bildes, der leicht übersehen werden kann. Ähnliche Probleme treten bei kleinen Instrumenten wie "Flöte" und "Oboe" auf.



In anderen Fällen gibt es Hinweise darauf, dass Fotos falsch beschriftet sind. In diesen generierten Bildern des "Football-Helms" zeigen einige deutlich Menschen, die keine Helme tragen, und andere sehen verdächtig aus wie Baseball-Helme.





Vier erzeugte Bilder. Die beiden Besten sind Menschen, von denen keiner einen Footballhelm trägt (obwohl ihre Haare etwas seltsam sein können; schwer zu sagen, da die anderen auch so seltsam sind). Unten links trägt ein Mann einen Helm, der wie ein Metallbaseball aussieht. Unten rechts ... unten rechts - ein Footballhelm, gekreuzt mit einem zahnigen Comicfisch



ImageNet ist ein wirklich chaotischer Datensatz. Er hat eine Kategorie für eine Agama, aber nicht für eine Giraffe. Anstelle eines Pferdes als Kategorie gibt es Sauerampfer (eine bestimmte Farbe eines Pferdes). Fahrrad für zwei ist eine Kategorie, Skateboard jedoch nicht.





Vier Bilder, die eindeutig eine Art mehrrädriges Fahrradobjekt sind. Räder neigen dazu, mit seltsam geteilten Speichen flexibel zu sein, und manchmal lösen sich die Räder. Es gibt Menschen, die wie Fahrer aussehen, aber es ist schwierig, sie von Fahrrädern zu trennen. Der



Hauptgrund für die Verschmutzung durch ImageNet ist, dass die Datenbank automatisch im Internet erfasst wird. Die Bilder sollten von den Crowdsourcing-Arbeitern gefiltert werden, die sie markiert haben, aber viele der Kuriositäten sind durchgesickert. Und schrecklich großdie Anzahl der Bilder und Tags, die definitiv nicht im allgemeinen Forschungsdatensatz hätten erscheinen dürfen, und Bilder, die so aussehen, als wären sie ohne die Zustimmung der abgebildeten Personen dort angekommen. Nach Jahren der weit verbreiteten Nutzung durch die KI-Community hat das ImageNet-Team Berichten zufolge einige dieser Inhalte entfernt. Andere problematische Datensätze, wie sie beispielsweise ohne Erlaubnis aus Online-Bildern oder aus Überwachungsmaterial stammen, wurden kürzlich entfernt (andere wie Clearview AI werden noch verwendet ).



Vinay Prabhu und Abeba Birhane wiesen diese Woche auf ernsthafte Probleme mit einem anderen Datensatz hin, 80 Millionen Tiny Images... Das System hat die Bilder ausgeschnitten und sie automatisch mithilfe eines anderen neuronalen Netzwerks markiert, das auf Internet-Text trainiert ist. Sie mögen schockiert sein, aber der Internet-Text enthält einige ziemlich anstößige Dinge. MIT CSAIL hat diesen Datensatz dauerhaft gelöscht und nicht alle 80 Millionen Bilder manuell gefiltert.



Dies ist nicht nur ein Problem mit schlechten Daten , sondern auch mit einem System, in dem große Forschungsgruppen Datensätze mit großen Problemen wie anstößiger Sprache und mangelnder Zustimmung zum Fotografieren veröffentlichen können. Wie der Technologieethiker Shannon Vallor es ausdrückte : "Für jede Institution, die heute maschinelles Lernen betreibt, ist 'wir wussten es nicht' keine Entschuldigung, sondern eine Anerkennung." MögenImageNet, der Algorithmus, der Obama zu einem weißen Mann gemacht hat , ist ein Produkt der Community für maschinelles Lernen, in der es einen großen Mangel an Vielfalt gibt (haben Sie bemerkt, dass die meisten der in diesem Blog generierten Personen weiß sind? Wenn Sie es nicht bemerkt haben, könnte dies an der Tatsache liegen, dass ein großer Ein Teil der westlichen Kultur betrachtet Weiß als Standardfarbe.



Es erfordert viel Arbeit, um das beste Dataset zu erstellen - und besser zu verstehen, welche Datasets niemals erstellt werden sollten. Aber diese Arbeit lohnt sich.



Siehe auch:






All Articles