LTX-2: Das Erste Open-Source-Modell das Synchronisiertes Video und Audio Generiert
Text-zu-Video-Modelle haben bemerkenswerte visuelle Qualität erreicht, produzieren jedoch stumme Ergebnisse.[^1] LTX-2 ändert diese Gleichung vollständig. Am 6. Januar 2026 veröffentlicht, generiert das neue Modell von Lightricks synchronisiertes Video und Audio in einem einzigen vereinten Durchgang.[^2]
Zusammenfassung
LTX-2 führt eine asymmetrische Dual-Stream-Transformer-Architektur ein: 14 Milliarden Parameter für Video, 5 Milliarden für Audio, gekoppelt durch bidirektionale Cross-Attention.[^3]
LTX-2 Architektur
Asymmetrisches Dual-Stream-Design
| Stream | Parameter | Begründung |
|---|---|---|
| Video | 14B | Höherdimensional, komplexere Generierung |
| Audio | 5B | Niedrigerdimensional, nutzt Video-Konditionierung |
Fähigkeiten
| Spezifikation | Wert |
|---|---|
| Maximale Auflösung | Natives 4K |
| Bildrate | Bis zu 50 fps |
| Maximale Dauer | 20 Sekunden |
Wichtigste Erkenntnisse
- Erstes Offenes Audiovisuelles Modell: Synchronisierte Video- und Audiogenerierung in einem Modell
- Native 4K-Ausgabe: Hochauflösende Generierung ohne Upscaling
- Umfassendes Audio: Sprache, Foley, Ambiente und emotionale Elemente
- Vollständig Offene Veröffentlichung: Gewichte, Inferenz-Code und Training-Code verfügbar