Das von DALL-E im Auftrag von Chat-GPT erstellte Bild: „Ein fotorealistisches Bild eines großen automatisierten Lagers, das wie mit einer hochwertigen DSLR-Kamera aufgenommen wurde. Das Lager ist mit autonomen Robotern ausgestattet, die rollenden Regalen ähneln mit gabelstaplerähnlichen Armen, die aktiv Waren kommissionieren, heben und transportieren. Echte Menschen in Warnwesten arbeiten im Lager und beaufsichtigen die Roboter. Die Umgebung ist hell erleuchtet, sauber und gut organisiert, Sie zeigt scharfe Details und Realismus.“ Übersetzt mit DeepL.com (kostenlose Version)

Verstärkendes Lernen

Lernen mit Struktur

Deep Reinforcement Learning (RL) – dieser Zweig des maschinellen Lernens befasst sich mit KI-Systemen, die durch Interaktion mit der Welt lernen, sequenzielle Entscheidungen zu treffen. RL hat in einigen Bereichen schon bemerkenswerte Erfolge erzielt: von komplexen Strategien in Spielen wie Go über mehrere Handlungssequenzen in der simulierten Robotik bis hin zur Feinabstimmung großer Sprachmodelle. Dennoch bleibt sein Einsatz in der realen Welt begrenzt, da es mit Herausforderungen wie ineffizienter Datennutzung, mangelnder Sicherheit und eingeschränkter Generalisierbarkeit konfrontiert ist. Eine Studie des Forschungszentrums L3S und der University of Texas at Austin zeigt, wie die Einbettung problemspezifischer Strukturinformation die Leistungsfähigkeit und Skalierbarkeit von RL-Systemen grundlegend verbessern kann.

Grundlegende Herausforderungen überwinden

„Einige der größten Herausforderungen für RL ergeben sich aus der Unvorhersehbarkeit realer Szenarien“, sagt Aditya Mohan, Hauptautor der Studie. RL-Algorithmen scheitern oft an dynamischen Umgebungen oder verrauschten Belohnungssignalen. Herkömmliche RL-Modelle lernen in der Regel durch Trial-and-Error, um extrinsische Belohnungen zu maximieren. Dieses Verfahren ist nicht nur datenintensiv, sondern schränkt auch die Übertragbarkeit der Modelle auf neue Aufgaben stark ein. Ein Roboter, der in einer Simulation darauf trainiert wurde, eine blaue Tasse aufzuheben, könnte beispielsweise versagen, wenn sich die Farbe der Tasse ändert.

Die Einschränkung steht in krassem Gegensatz zum menschlichen Lernen. Im Wesentlichen entwickeln Kinder ein generelles Verständnis ihrer Umwelt, das sie aufgabenspezifisch anwenden können. Dagegen werden RL-Algorithmen darauf trainiert, implizit gerade so viel über die Welt zu lernen, dass sie die vom menschlichen Designer vorgegebene extrinsische Belohnung optimieren können. Um solche Algorithmen auf Veränderungen einzustellen, müssten spezifische Belohnungen für einzelne Problemvarianten definiert werden.

Strukturelle Informationen einbeziehen

Die Autoren plädieren dafür, zusätzliche strukturelle Informationen in die Modelle zu integrieren. Ein Beispiel: Ein RL-Agent, der ein Taxi in einer Stadt steuert, müsste durch bloße Interaktion das gesamte Straßennetz, Verkehrsverhalten und Passagierbewegungen lernen – eine nahezu unlösbare Aufgabe. Mit struktureller Information, etwa der Trennung von Verkehrs- und Passagiermustern, kann der Lernprozess effizienter und zielgerichteter gestaltet werden.

Der Ansatz macht sich die Möglichkeit zunutze, komplexe Probleme in handhabbare Teilkomponenten zu zerlegen. Die Autoren haben recherchiert, inwieweit verschiedene RL-Methoden eine solche Zerlegbarkeit annehmen, und anschließend einen Rahmen entwickelt, um diese Annahmen zu kategorisieren. Die Studie identifiziert vier grundlegende Archetypen für die Dekomposition komplexer Probleme in RL-Modellen: latent, faktorisiert, relational und modular.

Von Entwurfsentscheidungen zu Entwurfsmustern

RL-Algorithmen unterscheiden sich oft nur durch geringfügige Änderungen an der Standard-RL-Pipeline. Algorithmen, die strukturelle Annahmen verwenden, tun dies in einer wiederholbaren Reihenfolge. Auf der Grundlage dieser Erkenntnis stellen Mohan und seine Co-Autoren ein Rahmenwerk vor, das Entwurfsmuster für die Einbettung von Strukturen in RL-Algorithmen skizziert, einschließlich abstrakter Zustände, faktorisierter Modelle, relationaler Architekturen und modularer Designs. Die Analyse eines breiten Spektrums von RL-Arbeiten durch die Linse der Entwurfsmuster zeigt, welche Kombinationen von Mustern sich für bestimmte Anwendungen als effektiv erwiesen haben − von der Generalisierung bis zur Interpretierbarkeit. Beispielsweise kann ein Roboter durch die Einbeziehung relationaler Darstellungen Pakete in einem Lagerhaus effizient sortieren, da er die Beziehungen zwischen den Objekten versteht. In ähnlicher Weise können RL-Agenten durch die Verwendung von Belohnungsmodellen auch in Umgebungen mit wenigen Belohnungssignalen effizient lernen.

Dieser strukturierte Ansatz beschleunigt nicht nur die Datenverarbeitung, sondern verbessert auch die Generalisierungsfähigkeit von RL-Agenten. Die Arbeit öffnet neue Forschungsfelder, etwa die Identifikation optimaler Entwurfsmuster oder Kombinationen davon für unterschiedliche Anwendungen – je nach den gewünschten Eigenschaften Generalisierbarkeit, Effizienz, Sicherheit oder Interpretierbarkeit. „Wir hoffen, dass unser Rahmenwerk als Leitfaden für die Weiterentwicklung von RL-Methoden dienen wird“, sagt Mohan. „Die Verwendung von Strukturen könnte der Schlüssel sein, um RL endlich auf die komplexe reale Welt auszuweiten.“

Aditya Mohan, Amy Zhang, Marius Lindauer: Structure in Deep Reinforcement Learning: A Survey and Open Problems. J. Artif. Intell. Res. 79: 1167-1236 (2024) jair.org/index.php/jair/article/view/15703/27028

Kontakt

Aditya Mohan, M. Sc.

Aditya Mohan ist wissenschaftlicher Mitarbeiter am Forschungszentrum L3S und am Institut für Informationsverarbeitung, Fachgebiet Automatische Bildinterpretation, der Leibniz Universität Hannover.