LTX-2: El Primer Modelo de Código Abierto que Genera Video y Audio Sincronizados
Los modelos de texto a video han logrado una calidad visual notable, pero producen resultados silenciosos.[^1] LTX-2 cambia esta ecuación por completo. Lanzado el 6 de enero de 2026, el nuevo modelo de Lightricks genera video y audio sincronizados en un solo paso unificado, entregando resolución 4K nativa a 50 cuadros por segundo.[^2]
Resumen
LTX-2 introduce una arquitectura transformer asimétrica de doble flujo: 14 mil millones de parámetros para video, 5 mil millones para audio, acoplados mediante cross-attention bidireccional.[^3] Más allá del habla, LTX-2 produce pistas de audio coherentes incluyendo sonidos de fondo, efectos foley y ambiente ambiental.[^5]
Arquitectura LTX-2
Diseño Asimétrico de Doble Flujo
| Flujo | Parámetros | Razón |
|---|---|---|
| Video | 14B | Mayor dimensionalidad, generación más compleja |
| Audio | 5B | Menor dimensionalidad, aprovecha el condicionamiento de video |
Cross-Attention Bidireccional
Los flujos se comunican mediante capas de cross-attention bidireccional con embeddings posicionales temporales:[^14]
Capacidades
| Especificación | Valor |
|---|---|
| Resolución máxima | 4K nativo |
| Tasa de cuadros | Hasta 50 fps |
| Duración máxima | 20 segundos |
Habla Sincronizada
- Sincronización labial precisa
- Entrega vocal expresiva
- Múltiples hablantes soportados
Pistas de Audio Ricas
Efectos Foley: Sonidos físicos que coinciden con acciones en pantalla Ambiente Ambiental: Sonidos de fondo que coinciden con el contexto de la escena
Puntos Clave
LTX-2 representa múltiples primicias para la IA generativa de código abierto:
- Primer Modelo Audiovisual Abierto: Generación sincronizada de video y audio en un solo modelo
- Salida 4K Nativa: Generación de alta resolución sin upscaling
- Audio Integral: Habla, foley, ambiente y elementos emocionales
- Lanzamiento Completamente Abierto: Pesos, código de inferencia y código de entrenamiento disponibles