LTX-2: Das Erste Open-Source-Modell das Synchronisiertes Video und Audio Generiert

Lightricks veröffentlicht LTX-2 mit 14B Video + 5B Audio Parametern. Natives 4K bei 50fps mit Lippensynchronisation, Foley und Umgebungsklang. Vollständig offene Gewichte.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

LTX-2: Das Erste Open-Source-Modell das Synchronisiertes Video und Audio Generiert

Text-zu-Video-Modelle haben bemerkenswerte visuelle Qualität erreicht, produzieren jedoch stumme Ergebnisse.[^1] LTX-2 ändert diese Gleichung vollständig. Am 6. Januar 2026 veröffentlicht, generiert das neue Modell von Lightricks synchronisiertes Video und Audio in einem einzigen vereinten Durchgang.[^2]

Zusammenfassung

LTX-2 führt eine asymmetrische Dual-Stream-Transformer-Architektur ein: 14 Milliarden Parameter für Video, 5 Milliarden für Audio, gekoppelt durch bidirektionale Cross-Attention.[^3]

LTX-2 Architektur

Asymmetrisches Dual-Stream-Design

Stream	Parameter	Begründung
Video	14B	Höherdimensional, komplexere Generierung
Audio	5B	Niedrigerdimensional, nutzt Video-Konditionierung

Fähigkeiten

Spezifikation	Wert
Maximale Auflösung	Natives 4K
Bildrate	Bis zu 50 fps
Maximale Dauer	20 Sekunden

Wichtigste Erkenntnisse

Erstes Offenes Audiovisuelles Modell: Synchronisierte Video- und Audiogenerierung in einem Modell
Native 4K-Ausgabe: Hochauflösende Generierung ohne Upscaling
Umfassendes Audio: Sprache, Foley, Ambiente und emotionale Elemente
Vollständig Offene Veröffentlichung: Gewichte, Inferenz-Code und Training-Code verfügbar

LTX-2: Das Erste Open-Source-Modell das Synchronisiertes Video und Audio Generiert

Zusammenfassung

LTX-2 Architektur

Asymmetrisches Dual-Stream-Design

Fähigkeiten

Wichtigste Erkenntnisse

You Might Also Like

Singapurs 27-Milliarden-Dollar-Boom bei KI-Infrastruktur: Ch...

Malaysia und Thailand: Aufstrebende KI-Rechenzentren in Südo...

Backup und Recovery für AI: Schutz von Trainings-Datensätzen...

Angebot anfordern_

Anfrage erhalten_