Bedingte Codierung zur lernbasierten Bild- und Videokompression

In Kooperation mit dem Department of Computer Science der National Chiao Tung University in Taiwan erforschen wir in diesem Projekt die lernbasierte Videocodierung unter dem Gesichtspunkt der bedingten Codierung mit einem Meta-Learning basierten Verfahren zur Regularisierung und dynamischen Anpassung.

Durch die Entwicklung neuer tiefer neuronaler Netzarchitekturen wie z.B. variationale Autoencoder (VAE) und Augmented Normalizing Flows (ANF) eröffnen sich neue Möglichkeiten zur lernbasierten Videocodierung. In diesem Projekt entwickeln wir ein neues Verfahren zur bedingten Videocodierung basierend auf ANFs statt der oftmals verwendeten VAEs. ANFs bieten den Vorteil, dass sie expressiver als VAEs sind, VAEs aber dennoch als Sonderfall beinhalten. In einem weiteren Aspekt dieses Projektes behandeln wir die Anpassungs- und Generalisierungsfähigkeit eines lernbasierten Videocodecs. Eine Schwäche lernbasierte Videocodecs ist die große Abweichung der Datenverteilungen zwischen Trainings- und Testdaten. Dadurch kommt es dazu, dass ein Codec zwar auf dem Trainingsdaten gute Ergebnisse erzielt, aber auf unbekannten Daten schlechte. Um die Generalisierungsvermögen zu verbessern, entwickeln wir eine Metakostenfunktion, die die Erhaltung gemeinsamer Eigenschaften zwischen den Frames einer Videosequenz ermöglicht. Weiterhin verwenden wir diese Metakostenfunktion um den Decoder dynamisch während der Inferenz an die Datenverteilung der Eingangsdaten anzupassen.

Förderprogramm

MOST-DFG-Call 2022, DFG

Projektpartner

Prof. Wen-Hsiao Peng, NYCU, Taiwan

Kontakt

Prof. Dr.-Ing. Jörn Ostermann

Projektkoordinator und Projektleiter

ostermann@l3s.de

+49 511 762 5316