LTX-2: Das Erste Open-Source-Modell das Synchronisiertes Video und Audio Generiert

Lightricks veröffentlicht LTX-2 mit 14B Video + 5B Audio Parametern. Natives 4K bei 50fps mit Lippensynchronisation, Foley und Umgebungsklang. Vollständig offene Gewichte.

LTX-2: Das Erste Open-Source-Modell das Synchronisiertes Video und Audio Generiert

LTX-2: Das Erste Open-Source-Modell das Synchronisiertes Video und Audio Generiert

Text-zu-Video-Modelle haben bemerkenswerte visuelle Qualität erreicht, produzieren jedoch stumme Ergebnisse.[^1] LTX-2 ändert diese Gleichung vollständig. Am 6. Januar 2026 veröffentlicht, generiert das neue Modell von Lightricks synchronisiertes Video und Audio in einem einzigen vereinten Durchgang.[^2]

Zusammenfassung

LTX-2 führt eine asymmetrische Dual-Stream-Transformer-Architektur ein: 14 Milliarden Parameter für Video, 5 Milliarden für Audio, gekoppelt durch bidirektionale Cross-Attention.[^3]

LTX-2 Architektur

Asymmetrisches Dual-Stream-Design

Stream Parameter Begründung
Video 14B Höherdimensional, komplexere Generierung
Audio 5B Niedrigerdimensional, nutzt Video-Konditionierung

Fähigkeiten

Spezifikation Wert
Maximale Auflösung Natives 4K
Bildrate Bis zu 50 fps
Maximale Dauer 20 Sekunden

Wichtigste Erkenntnisse

  1. Erstes Offenes Audiovisuelles Modell: Synchronisierte Video- und Audiogenerierung in einem Modell
  2. Native 4K-Ausgabe: Hochauflösende Generierung ohne Upscaling
  3. Umfassendes Audio: Sprache, Foley, Ambiente und emotionale Elemente
  4. Vollständig Offene Veröffentlichung: Gewichte, Inferenz-Code und Training-Code verfügbar

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING