L3S Best Publication of the Quarter (Q3/2024)
Kategorie: Knowledge Graphs and Bias
Employing Hybrid AI Systems to Trace and Document Bias in ML Pipelines
Autoren: Mayra Russo, Yasharajsinh Chudasama, Disha Purohit, Sammy Sawischa, Maria-Esther Vidal
Veröffentlicht in IEEE.
Das Papier in Kürze
Unsere Arbeit befasst sich mit der Herausforderung, interpretierbares Wissen über messbare Verzerrungen in Daten und KI-Pipelines zu erfassen, das sowohl für Menschen als auch für Maschinen lesbar ist.
Dazu verwenden wir eine hybride KI-Systemarchitektur, das heißt, wir nehmen Komponenten aus der symbolischen KI und der subsymbolischen KI und kombinieren sie mit dem Ziel, die Vorteile jeder einzelnen Komponente zu nutzen, um die Leistung und Erklärbarkeit von KI-Systemen zu verbessern.
Anhand eines praktischen Anwendungsfalls, der auf der Erkennung von Fake News basiert, zeigen wir zwei verschiedene Implementierungen unserer hybriden KI-Architektur und demonstrieren deren Fähigkeit, die zugrunde liegende KI-Pipeline zur Generierung semantischer Metadaten nachzuvollziehen, um zu klären, wie sich Datenverzerrungen in der Pipeline auf das Ergebnis auswirken.
Welches Problem lösen Sie mit Ihrer Forschung?
In unserer Forschung beschäftigen wir uns mit dem Problem der Voreingenommenheit im Zusammenhang mit KI-Systemen. Da sich der Einsatz von KI-Systemen von scheinbar trivialen Anwendungen zu solchen mit höheren Einsätzen und weitreichenden Entscheidungen entwickelt, ist es wichtig, sich daran zu erinnern, dass alle diese Systeme die Fähigkeit haben, unerwünschte, verzerrte Ergebnisse zu produzieren. Aus diesem Grund muss die proaktive Berücksichtigung von Verzerrungen während der Modellentwicklungs- und Anwendungsphase zu einer wesentlichen Aufgabe von KI-Forschern und -Entwicklern werden.
Unsere Arbeit schlägt eine Methodik zur Erstellung von voreingenommenen End-to-End-Dokumentationsartefakten für diese KI-Pipelines vor.
Welche potenziellen Auswirkungen haben Ihre Ergebnisse?
Die Ergebnisse unserer Arbeit zeigen, dass selbst unter der Prämisse ausgeglichener Datensätze während der Dateneingabephase die inneren Prozesse des KI-Modells eine attributfokussierte Verzerrung ausgleichen können, die die Gesamtgenauigkeit und Effektivität des Fake-News-Erkennungssystems erheblich beeinträchtigt. Konkret berichten wir über eine starke Schieflage in der Verteilung der Eingabevariablen in Richtung des Fake-News-Labels, wir decken auf, wie eine prädiktive Variable zu mehr Einschränkungen im Lernprozess führt, und heben offene Herausforderungen beim Training von Modellen mit unausgewogenen Datensätzen hervor.
Was ist neu an Ihrer Forschung?
Unsere Forschung schlägt einen neuartigen Dokumentationsansatz vor, der eine hybride KI-Architektur nutzt, um KI-Systeme zu verfolgen und eine für Menschen und Maschinen lesbare Dokumentation zu erstellen.
Unsere hybride KI-Architektur ist für eine vielseitige Implementierung geeignet.
In unserer Arbeit stellen wir zwei Implementierungen eines hybriden KI-Systems vor. Die eine folgt einem integrierten Ansatz und ermöglicht eine feinkörnige Verfolgung und Dokumentation des gesamten KI-Prozesses. Die andere verfolgt einen prinzipiellen Ansatz und ermöglicht die Dokumentation und den Vergleich von Verzerrungen in den Eingabedaten und den vom Modell generierten Vorhersagen. Für weitere Informationen haben wir ein Video mit einer Zusammenfassung unserer Arbeit online gestellt: https://youtu.be/v2GfIQPAy_4?si=BXtWOf97cLiZavyu.
Link zum Paper: https://ieeexplore.ieee.org/document/10596297