Wie DatensÀtze Rassismus und Sexismus ansammeln

Algorithmen fĂŒr maschinelles Lernen fĂŒr Bilder und Text weisen regelmĂ€ĂŸig rassistische und sexistische Vorurteile auf. Ein aktuelles Beispiel ist die Blockierung des sĂŒdkoreanischen Facebook-Bots Lee Luda , der Angehörige sexueller Minderheiten und Afroamerikaner „hasst“. Das Problem ist tiefer als es scheint. Beim Erstellen von DatensĂ€tzen fĂŒr maschinelles Lernen ĂŒbersetzen Menschen (bewusst oder nicht) viele ihrer eigenen Vorurteile in sie, die anschließend die Algorithmen leiten.







Programmierter Rassismus



Gesichtsfotodaten sind die Basis fĂŒr Computer-Vision-Systeme. Diese SĂ€tze werden hĂ€ufig entsprechend der Rasse der Personen in einem bestimmten Datensatz gekennzeichnet. In Wirklichkeit ist Rasse jedoch ein abstraktes und vages Konzept. Bei der Erstellung von Kategorien wird der GĂŒltigkeit, Strukturierung und StabilitĂ€t dieser Informationen wenig Aufmerksamkeit geschenkt. Dies bedeutet, dass Personen, die DatensĂ€tze bilden, die Möglichkeit haben, sich bei der Erstellung von DatensĂ€tzen bewusst oder unbewusst zu manifestieren.



Forscher der Northeastern Massachusetts University, Zayed Han und Yun Fu, untersuchten Gesichtsmarken in DatensĂ€tzen im Kontext von Rassenkategorien. Wissenschaftler behauptenDiese Tags sind unzuverlĂ€ssig, weil sie systematisch rassistische Stereotypen codieren. Einige DatensĂ€tze verwenden zu vage Merkmale wie „Indien / SĂŒdasien“ oder „Menschen mit Vorfahren aus LĂ€ndern in Afrika, Indien, Bangladesch, Bhutan und anderen LĂ€ndern“. Und manchmal werden Etiketten verwendet, die als anstĂ¶ĂŸig interpretiert werden können - zum Beispiel "Mongoloid".



Die Forscher schreiben, dass der hĂ€ufig verwendete Standardsatz von Rassenkategorien (asiatisch, schwarz, weiß) nicht in der Lage ist, eine signifikante Anzahl von Menschen zu reprĂ€sentieren. Zum Beispiel schließt dieses Schema indianische Völker aus. Es ist unklar, welches Etikett fĂŒr Hunderte Millionen Menschen im Nahen Osten oder in Nordafrika angebracht werden soll. Ein weiteres entdecktes Problem ist, dass Menschen die RassenidentitĂ€t bestimmter Personen unterschiedlich wahrnehmen. In einem Datensatz wurden Koreaner beispielsweise als asiatischer als Filipinos angesehen.



Es ist theoretisch möglich, die Anzahl der Rassenkategorien zu erweitern, aber sie können beispielsweise Mestizen nicht beschreiben. Nationale oder ethnische Herkunft kann verwendet werden, aber LĂ€ndergrenzen sind oft das Ergebnis historischer UmstĂ€nde, die keine Unterschiede im Aussehen widerspiegeln. DarĂŒber hinaus sind viele LĂ€nder rassisch heterogen.



Die Forscher warnen davor, dass Rassenvorurteile vervielfacht und verstĂ€rkt werden können, wenn sie nicht angegangen werden. Gesichtserkennungsalgorithmen sind anfĂ€llig fĂŒr verschiedene Verzerrungen. DatensĂ€tze sollten so viele korrekt beschriebene Rassen wie möglich haben, um jegliche Diskriminierung zu vermeiden. Alle ethnischen Gruppen sollten in der digitalen Welt vertreten sein, egal wie klein sie sind.



Programmierter Sexismus



Die Algorithmen zur Erzeugung von Texten und Bildern können auch falsche Überzeugungen verbreiten. In gewissem Sinne sind sie die Personifikation des kollektiven unbewussten Internets. Negative Ideen werden als Teil von Lernalgorithmen normalisiert.



Die Forscher Ryan Steed und Eileen Caliscan fĂŒhrten ein Experiment durch - sie luden Fotos der Gesichter von MĂ€nnern und Frauen zu Diensten hoch, die zugeschnittene Bilder hinzufĂŒgen. In 43% der FĂ€lle bot der Algorithmus MĂ€nnern einen Business-Anzug an. In 53% der FĂ€lle erzeugte der Algorithmus fĂŒr Frauen ein Oberteil oder einen Anzug mit tiefem Ausschnitt.



Im Jahr 2019 Forscher Keith Crawford und KĂŒnstler Trevor Paglen entdecktDiese Tags in ImageNet, dem grĂ¶ĂŸten Datensatz zum Trainieren von Computer-Vision-Modellen, enthalten beleidigende Wörter. Zum Beispiel "Schlampe" und falsche Rassennamen. Das Problem ist, dass diese DatensĂ€tze auf Daten aus dem Internet basieren, in denen viele Stereotypen ĂŒber Menschen und PhĂ€nomene zirkulieren.



Die Forscher betonen, dass Bilder sehr unscharfe Daten sind, die mit vielen mehrdeutigen Bedeutungen, unlösbaren Fragen und WidersprĂŒchen belastet sind. Und die Entwickler von Algorithmen fĂŒr maschinelles Lernen stehen vor der Aufgabe, alle Nuancen der instabilen Beziehung zwischen Bildern und Werten zu untersuchen.



Benötigen Sie mehr Fotos



Die Forscher Deborah Raji und Genevieve Fried untersuchten 130 GesichtsdatensĂ€tze (FairFace, BFW, RFW und LAOFIW), die ĂŒber 43 Jahre gesammelt wurden. Wie sich herausstellte, hörten die Menschen mit zunehmendem Datenwachstum allmĂ€hlich auf, um Zustimmung zu bitten, ihre Bilder fĂŒr die Verwendung in DatensĂ€tzen zu verwenden.



Dies fĂŒhrte zu DatensĂ€tzen mit Fotos von MinderjĂ€hrigen, Fotos mit rassistischen und sexistischen Beschreibungen und Bildern von geringer QualitĂ€t. Dieser Trend könnte den Grund erklĂ€ren, warum die Polizei Personen aufgrund von Gesichtserkennungsdaten regelmĂ€ĂŸig fĂ€lschlicherweise festnimmt .



Anfangs waren die Leute sehr vorsichtig beim Sammeln, Dokumentieren und ÜberprĂŒfen von Gesichtsdaten, aber heute kĂŒmmert sich niemand mehr darum. „Man kann einfach nicht eine Million Gesichter verfolgen. Nach einem bestimmten Punkt können Sie nicht einmal mehr so ​​tun, als hĂ€tten Sie die Kontrolle. Wir sammeln private Informationen von mindestens Zehntausenden von Menschen, was an sich die Grundlage fĂŒr SchĂ€den ist. Und dann sammeln wir all diese Informationen, die Sie nicht kontrollieren können, um etwas zu erstellen, das wahrscheinlich auf eine Weise funktioniert, die Sie nicht einmal vorhersagen können “, sagt Deborah Raji.



Daher sollten Sie sich Algorithmen und Daten fĂŒr maschinelles Lernen nicht als Einheiten vorstellen, die die Welt objektiv und wissenschaftlich klassifizieren. Sie unterliegen auch politischen, ideologischen, rassistischen Vorurteilen und subjektiven Bewertungen. Nach dem Stand großer und beliebter DatensĂ€tze zu urteilen, ist dies die Regel und nicht die Ausnahme.






Blog ITGLOBAL.COM - Managed IT, Private Clouds, IaaS, Informationssicherheitsdienste fĂŒr Unternehmen:






All Articles