Das große Bild wurde von Midjourney für den Prompt 'professionelle Fotografie des fließenden Stadtverkehrs an einem sonnigen Morgen in Deutschland mit grüner Ampel' erstellt, das kleine Bild bezieht sich auf den Prompt 'ein Detailfoto einer Ampel, grün, mit einer Überwachungskamera, vor weißem Hintergrund, natürliches Licht“.
Mobilität
Intelligenteres Verkehrsmanagement
Weniger Staus, besserer öffentlicher Nahverkehr und geringere Fahrzeugemissionen – das Leben in der Stadt könnte deutlich angenehmer sein. Intelligente Verkehrssysteme sollen die Lösung bringen und den Verkehr besser steuern. Damit das funktioniert, müssen Kameras die Fahrzeuge teils über weite Strecken verfolgen und die gesammelten Daten koordiniert werden – bisher eine aufwendige und teure Angelegenheit. Wissenschaftler des L3S haben im renommierten Machine Learning Journal eine Lösung vorgestellt, die das Multi-Kamera-Tracking effizienter macht: das KI-System LaMMOn.
Grenzen bestehender Systeme
Bestehende Systeme sind sehr arbeitsintensiv. Für jede neue Kameraeinstellung müssen die Regeln zur Verknüpfung der erfassten Fahrzeuge zwischen den einzelnen Kameras manuell erstellt werden. „Das ist sehr aufwendig und zudem nur eingeschränkt skalierbar“, sagt Marco Fisichella, Forschungsgruppenleiter am L3S und einer der Entwickler von LaMMOn. Hinzu kommt die begrenzte Verfügbarkeit öffentlicher Datensätze, die es erschwert, neue Systeme zu testen und zu optimieren.
Der Schlüssel zu mehr Effizienz
LaMMOn nutzt fortschrittliche sprach- und graphbasierte KI-Techniken, um sich automatisch und ohne manuelle Einstellungen an verschiedene Szenarien anzupassen. Das System besteht aus drei Hauptmodulen:
- Language Model Detection (LMD): Dieses Modul ist für die Objekterkennung verantwortlich und erzeugt Fahrzeugmerkmale wie Typ, Farbe und Position.
- Language and Graph Model Association (LGMA): Es verknüpft wiedererkannte Fahrzeuge über mehrere Kameras hinweg und kombiniert Objekte, die von mehreren Kameras erkannt wurden, zu einer globalen Multikameratrajektorie, die den Bewegungspfad des Objekts darstellt.
- Text-to-Embedding (T2E): Das Modul löst das Problem des Datenmangels, indem es synthetische Objektmerkmale generiert - basierend auf Textbeschreibungen wie ‚roter Kombi‘ oder ‚blauer SUV‘.
Praktische Anwendung und Erfolge
LaMMOn hat sich bereits in mehreren Testdatensätzen bewährt. Es erreicht eine hohe Tracking-Genauigkeit von über 75 Prozent der HOTA-Metrik und übertrifft damit viele frühere Modelle.
„Unsere Ergebnisse zeigen, dass LaMMOn für den Einsatz in Echtzeit-Verkehrsszenarien gut geeignet ist“, sagt Fisichella. Mit einer Bildrate von über zwölf Bildern pro Sekunde erreicht das System die Geschwindigkeit, die für die Anwendung in Echtzeit erforderlich ist, ohne dabei an Präzision einzubüßen – ideal für smarte Städte.
Die Zukunft des Tracking
Neben der technischen Umsetzung hebt die Studie besonders die Rolle des T2E-Moduls hervor, das es ermöglicht, Fahrzeugdaten aus Text zu generieren. „Dieses Modul reduziert nicht nur den Aufwand für die manuelle Datenerstellung, sondern macht das System auch anpassungsfähiger und vielseitiger“, so Fisichella.
Zukünftig wird LaMMOn noch vielseitiger. Das Entwicklerteam plant, die sprachbasierten Funktionen zu erweitern und die Graphstrukturen zu verbessern, um noch komplexere Anwendungen zu unterstützen. „LaMMOn ist damit eine zukunftsweisende Lösung, die sich perfekt für die Verkehrsüberwachung und -steuerung eignet.“
Tuan T. Nguyen, Hoang H. Nguyen, Mina Sartipi, Marco Fisichella: LaMMOn: language model combined graph neural network for multi-target multi-camera tracking in online scenarios. Mach. Learn. 113(9): 6811-6837 (2024) Machine Learning Journal
Kontakt
Dr. Marco Fisichella
Marco Fisichella leitet am L3S eine Forschungsgruppe, die sich mit künstlicher Intelligenz und intelligenten Systemen insbesondere für die Anwendungsbereiche Mobilität, intelligente Produktion und personalisierte Medizin beschäftigt.
Dr. Hoang H. Nguyen
Hoang H. Nguyen war bis Juli 2024 Doktorand am L3S. Seit August 2024 ist er Postdoc an der University of Tennessee in Chattanooga, USA. Seine Forschungsschwerpunkte umfassen Graph Learning, Blockchain-Sicherheit und Transport.