👩🏿‍💻 💖 ♌️ Wie Datensätze Rassismus und Sexismus ansammeln 👩🏼‍✈️ 🐳 👩🏼‍🤝‍👩🏻

Algorithmen für maschinelles Lernen für Bilder und Text weisen regelmäßig rassistische und sexistische Vorurteile auf. Ein aktuelles Beispiel ist die Blockierung des südkoreanischen Facebook-Bots Lee Luda , der Angehörige sexueller Minderheiten und Afroamerikaner „hasst“. Das Problem ist tiefer als es scheint. Beim Erstellen von Datensätzen für maschinelles Lernen übersetzen Menschen (bewusst oder nicht) viele ihrer eigenen Vorurteile in sie, die anschließend die Algorithmen leiten.

Programmierter Rassismus

Gesichtsfotodaten sind die Basis für Computer-Vision-Systeme. Diese Sätze werden häufig entsprechend der Rasse der Personen in einem bestimmten Datensatz gekennzeichnet. In Wirklichkeit ist Rasse jedoch ein abstraktes und vages Konzept. Bei der Erstellung von Kategorien wird der Gültigkeit, Strukturierung und Stabilität dieser Informationen wenig Aufmerksamkeit geschenkt. Dies bedeutet, dass Personen, die Datensätze bilden, die Möglichkeit haben, sich bei der Erstellung von Datensätzen bewusst oder unbewusst zu manifestieren.

Forscher der Northeastern Massachusetts University, Zayed Han und Yun Fu, untersuchten Gesichtsmarken in Datensätzen im Kontext von Rassenkategorien. Wissenschaftler behauptenDiese Tags sind unzuverlässig, weil sie systematisch rassistische Stereotypen codieren. Einige Datensätze verwenden zu vage Merkmale wie „Indien / Südasien“ oder „Menschen mit Vorfahren aus Ländern in Afrika, Indien, Bangladesch, Bhutan und anderen Ländern“. Und manchmal werden Etiketten verwendet, die als anstößig interpretiert werden können - zum Beispiel "Mongoloid".

Die Forscher schreiben, dass der häufig verwendete Standardsatz von Rassenkategorien (asiatisch, schwarz, weiß) nicht in der Lage ist, eine signifikante Anzahl von Menschen zu repräsentieren. Zum Beispiel schließt dieses Schema indianische Völker aus. Es ist unklar, welches Etikett für Hunderte Millionen Menschen im Nahen Osten oder in Nordafrika angebracht werden soll. Ein weiteres entdecktes Problem ist, dass Menschen die Rassenidentität bestimmter Personen unterschiedlich wahrnehmen. In einem Datensatz wurden Koreaner beispielsweise als asiatischer als Filipinos angesehen.

Es ist theoretisch möglich, die Anzahl der Rassenkategorien zu erweitern, aber sie können beispielsweise Mestizen nicht beschreiben. Nationale oder ethnische Herkunft kann verwendet werden, aber Ländergrenzen sind oft das Ergebnis historischer Umstände, die keine Unterschiede im Aussehen widerspiegeln. Darüber hinaus sind viele Länder rassisch heterogen.

Die Forscher warnen davor, dass Rassenvorurteile vervielfacht und verstärkt werden können, wenn sie nicht angegangen werden. Gesichtserkennungsalgorithmen sind anfällig für verschiedene Verzerrungen. Datensätze sollten so viele korrekt beschriebene Rassen wie möglich haben, um jegliche Diskriminierung zu vermeiden. Alle ethnischen Gruppen sollten in der digitalen Welt vertreten sein, egal wie klein sie sind.

Programmierter Sexismus

Die Algorithmen zur Erzeugung von Texten und Bildern können auch falsche Überzeugungen verbreiten. In gewissem Sinne sind sie die Personifikation des kollektiven unbewussten Internets. Negative Ideen werden als Teil von Lernalgorithmen normalisiert.

Die Forscher Ryan Steed und Eileen Caliscan führten ein Experiment durch - sie luden Fotos der Gesichter von Männern und Frauen zu Diensten hoch, die zugeschnittene Bilder hinzufügen. In 43% der Fälle bot der Algorithmus Männern einen Business-Anzug an. In 53% der Fälle erzeugte der Algorithmus für Frauen ein Oberteil oder einen Anzug mit tiefem Ausschnitt.

Im Jahr 2019 Forscher Keith Crawford und Künstler Trevor Paglen entdecktDiese Tags in ImageNet, dem größten Datensatz zum Trainieren von Computer-Vision-Modellen, enthalten beleidigende Wörter. Zum Beispiel "Schlampe" und falsche Rassennamen. Das Problem ist, dass diese Datensätze auf Daten aus dem Internet basieren, in denen viele Stereotypen über Menschen und Phänomene zirkulieren.

Die Forscher betonen, dass Bilder sehr unscharfe Daten sind, die mit vielen mehrdeutigen Bedeutungen, unlösbaren Fragen und Widersprüchen belastet sind. Und die Entwickler von Algorithmen für maschinelles Lernen stehen vor der Aufgabe, alle Nuancen der instabilen Beziehung zwischen Bildern und Werten zu untersuchen.

Benötigen Sie mehr Fotos

Die Forscher Deborah Raji und Genevieve Fried untersuchten 130 Gesichtsdatensätze (FairFace, BFW, RFW und LAOFIW), die über 43 Jahre gesammelt wurden. Wie sich herausstellte, hörten die Menschen mit zunehmendem Datenwachstum allmählich auf, um Zustimmung zu bitten, ihre Bilder für die Verwendung in Datensätzen zu verwenden.

Dies führte zu Datensätzen mit Fotos von Minderjährigen, Fotos mit rassistischen und sexistischen Beschreibungen und Bildern von geringer Qualität. Dieser Trend könnte den Grund erklären, warum die Polizei Personen aufgrund von Gesichtserkennungsdaten regelmäßig fälschlicherweise festnimmt .

Anfangs waren die Leute sehr vorsichtig beim Sammeln, Dokumentieren und Überprüfen von Gesichtsdaten, aber heute kümmert sich niemand mehr darum. „Man kann einfach nicht eine Million Gesichter verfolgen. Nach einem bestimmten Punkt können Sie nicht einmal mehr so tun, als hätten Sie die Kontrolle. Wir sammeln private Informationen von mindestens Zehntausenden von Menschen, was an sich die Grundlage für Schäden ist. Und dann sammeln wir all diese Informationen, die Sie nicht kontrollieren können, um etwas zu erstellen, das wahrscheinlich auf eine Weise funktioniert, die Sie nicht einmal vorhersagen können “, sagt Deborah Raji.

Daher sollten Sie sich Algorithmen und Daten für maschinelles Lernen nicht als Einheiten vorstellen, die die Welt objektiv und wissenschaftlich klassifizieren. Sie unterliegen auch politischen, ideologischen, rassistischen Vorurteilen und subjektiven Bewertungen. Nach dem Stand großer und beliebter Datensätze zu urteilen, ist dies die Regel und nicht die Ausnahme.

Blog ITGLOBAL.COM - Managed IT, Private Clouds, IaaS, Informationssicherheitsdienste für Unternehmen:

Wie Datensätze Rassismus und Sexismus ansammeln

Programmierter Rassismus

Programmierter Sexismus

Benötigen Sie mehr Fotos

More articles: