Sony veröffentlicht neuen KI-Benchmark-Datensatz, um Computer-Vision-Modellen dabei zu helfen, Bias

Als Reaktion auf das häufig auftretende Bias-Problem bei aktuellen visuellen Modellen künstlicher Intelligenz hat das KI-Team von Sony kürzlich einen neuen Datensatz mit dem Namen „Fair Human-Centric Image Benchmark (FHIBE)“ veröffentlicht, der die Standardisierung von Fairnesstests und ethischer Datenerfassung fördern soll.

Alle Bilder in diesem Datensatz wurden mit meiner Zustimmung gesammelt und decken 81 Länder und Regionen auf der ganzen Welt ab. Es enthält insgesamt 10.318 Bilder und 1.981 eigenständige Motive. Jedes Bild ist mit detaillierten Anmerkungen ausgestattet, einschließlich professioneller Informationen wie Randdefinitionen, Segmentierungsmasken und Kameraparameter, um Entwicklern eine detaillierte Bewertung des Modells zu erleichtern.

Alice Xiang, Leiterin der globalen KI-Governance bei Sony AI, sagte, ein Missverständnis im Bereich Computer Vision bestehe darin, dass Modelle aufgrund ihrer Abhängigkeit von Daten und Algorithmen die Realität objektiv widerspiegeln könnten. Tatsächlich wirkt sich die Datenverzerrung im Modelltrainingsprozess direkt auf die tatsächliche Leistung aus. In China beispielsweise enthielten einige Gesichtserkennungssysteme für Mobiltelefone früher nicht genügend asiatische Gesichter in den Trainingsdaten, was dazu führte, dass Familienmitglieder das Gerät versehentlich entsperrten und Zahlungen abschlossen, was zu Sicherheitsrisiken führte. Darüber hinaus gab es bei bestehenden visuellen Modellen auch Probleme wie die fälschliche Klassifizierung von Ärztinnen als Krankenschwestern oder die unbeabsichtigte Verstärkung von Berufs-, Rassen- und Geschlechterstereotypen.

Zuvor wurde für die meisten Computer-Vision-Datensätze, die zur Beurteilung der Fairness verwendet wurden, nicht die Zustimmung der Probanden eingeholt und sogar Bilder direkt von Internetplattformen gecrawlt, was viele Urheberrechts- und Datenschutzstreitigkeiten auslöste. Im Gegensatz dazu liegen bei der gesamten Datensammlung von FHIBE vollständig öffentliche Aufzeichnungen über Einwilligungs- und Vergütungsprozesse vor und es wird davon ausgegangen, dass sie einen neuen ethischen Standard für die Branche gesetzt haben.

Basierend auf dem FHIBE-Test stellte das KI-Team von Sony fest, dass die Genauigkeit einiger Modelle beim Umgang mit bestimmten Geschlechtspronomen (wie „She/Her/Hers“) aufgrund der Vielfalt der Frisuren abnahm. Das Modell kann kriminelle Aktivitäten auch unangemessen mit bestimmten ethnischen Gruppen bei der Berufserkennungsaufgabe in Verbindung bringen. Das Team betonte, dass FHIBE Entwicklern dabei helfen kann, diese Abweichungen rechtzeitig zu erkennen und zu korrigieren, die Branche dazu zu bewegen, bei der Datenerfassung mehr auf Ethik und Fairness zu achten, und das Forschungs- und Entwicklungspersonal dazu zu ermutigen, mehr Ressourcen in die Verbesserung der Innovation auf der Datenebene zu investieren.

Obwohl die US-Bundesebene derzeit noch keine Richtlinien eingeführt hat, die KI-Ethik und -Fairness speziell unterstützen, haben das EU-KI-Gesetz und relevante Vorschriften in einigen US-Bundesstaaten begonnen, eine Überprüfung der algorithmischen Voreingenommenheit in Hochrisikobereichen vorzuschreiben. Die Sony Group hat den FHIBE-Datensatz in den KI-Ethik-Bewertungsprozess übernommen und überprüft proaktiv die Fairness ihrer Geschäftsmodelle in Übereinstimmung mit dem KI-Ethikkodex.

Alice Xiang glaubt, dass „Datennihilismus“ in der Branche zunehmend vorherrscht, und die Praxis von FHIBE zeigt, dass KI-Technologie vollständig auf der Grundlage von einvernehmlichen und entschädigten Daten entwickelt werden kann. Obwohl der derzeitige Umfang von FHIBE noch klein ist und nicht ausreicht, um Big-Data-Schulungen zu unterstützen, besteht seine Bedeutung darin, Methodendemonstrationen für die Industrie bereitzustellen und mehr Aufmerksamkeit auf die Innovation der Datenschicht zu lenken, was immer noch ein wichtiges Problem ist, das im aktuellen KI-Bereich gelöst werden muss.