LTX-2 : Le Premier Modèle Open-Source Générant Vidéo et Audio Synchronisés
Les modèles texte-vers-vidéo ont atteint une qualité visuelle remarquable, mais produisent des résultats silencieux.[^1] LTX-2 change complètement cette équation. Publié le 6 janvier 2026, le nouveau modèle de Lightricks génère vidéo et audio synchronisés en une seule passe unifiée.[^2]
Résumé
LTX-2 introduit une architecture transformer asymétrique à double flux : 14 milliards de paramètres pour la vidéo, 5 milliards pour l'audio, couplés par cross-attention bidirectionnelle.[^3]
Architecture LTX-2
| Flux | Paramètres | Justification |
|---|---|---|
| Vidéo | 14B | Dimensionnalité supérieure, génération plus complexe |
| Audio | 5B | Dimensionnalité inférieure, exploite le conditionnement vidéo |
Points Clés
- Premier Modèle Audiovisuel Ouvert : Génération synchronisée vidéo et audio dans un seul modèle
- Sortie 4K Native : Génération haute résolution sans upscaling
- Audio Complet : Parole, foley, ambiance et éléments émotionnels
- Publication Entièrement Ouverte : Poids, code d'inférence et code d'entraînement disponibles