LTX-2: El Primer Modelo de Código Abierto que Genera Video y Audio Sincronizados

Lightricks lanza LTX-2 con 14B parámetros de video + 5B de audio. 4K nativo a 50fps con sincronización labial, foley y sonido ambiental. Pesos completamente abiertos.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

LTX-2: El Primer Modelo de Código Abierto que Genera Video y Audio Sincronizados

Los modelos de texto a video han logrado una calidad visual notable, pero producen resultados silenciosos.[^1] LTX-2 cambia esta ecuación por completo. Lanzado el 6 de enero de 2026, el nuevo modelo de Lightricks genera video y audio sincronizados en un solo paso unificado, entregando resolución 4K nativa a 50 cuadros por segundo.[^2]

Resumen

LTX-2 introduce una arquitectura transformer asimétrica de doble flujo: 14 mil millones de parámetros para video, 5 mil millones para audio, acoplados mediante cross-attention bidireccional.[^3] Más allá del habla, LTX-2 produce pistas de audio coherentes incluyendo sonidos de fondo, efectos foley y ambiente ambiental.[^5]

Arquitectura LTX-2

Diseño Asimétrico de Doble Flujo

Flujo	Parámetros	Razón
Video	14B	Mayor dimensionalidad, generación más compleja
Audio	5B	Menor dimensionalidad, aprovecha el condicionamiento de video

Cross-Attention Bidireccional

Los flujos se comunican mediante capas de cross-attention bidireccional con embeddings posicionales temporales:[^14]

Capacidades

Especificación	Valor
Resolución máxima	4K nativo
Tasa de cuadros	Hasta 50 fps
Duración máxima	20 segundos

Habla Sincronizada

Sincronización labial precisa
Entrega vocal expresiva
Múltiples hablantes soportados

Pistas de Audio Ricas

Efectos Foley: Sonidos físicos que coinciden con acciones en pantalla Ambiente Ambiental: Sonidos de fondo que coinciden con el contexto de la escena

Puntos Clave

LTX-2 representa múltiples primicias para la IA generativa de código abierto:

Primer Modelo Audiovisual Abierto: Generación sincronizada de video y audio en un solo modelo
Salida 4K Nativa: Generación de alta resolución sin upscaling
Audio Integral: Habla, foley, ambiente y elementos emocionales
Lanzamiento Completamente Abierto: Pesos, código de inferencia y código de entrenamiento disponibles

LTX-2: El Primer Modelo de Código Abierto que Genera Video y Audio Sincronizados

Resumen

Arquitectura LTX-2

Diseño Asimétrico de Doble Flujo

Cross-Attention Bidireccional

Capacidades

Habla Sincronizada

Pistas de Audio Ricas

Puntos Clave

You Might Also Like

Datos de Series Temporales e IoT para Entrenamiento de IA: I...

Switches InfiniBand: NVIDIA Quantum-X800 y la Generación XDR...

Gestión de APIs para Servicios de IA: Limitación de Velocida...

Request a Quote_

Request Received_