LTX-2: El Primer Modelo de Código Abierto que Genera Video y Audio Sincronizados

Lightricks lanza LTX-2 con 14B parámetros de video + 5B de audio. 4K nativo a 50fps con sincronización labial, foley y sonido ambiental. Pesos completamente abiertos.

LTX-2: El Primer Modelo de Código Abierto que Genera Video y Audio Sincronizados

LTX-2: El Primer Modelo de Código Abierto que Genera Video y Audio Sincronizados

Los modelos de texto a video han logrado una calidad visual notable, pero producen resultados silenciosos.[^1] LTX-2 cambia esta ecuación por completo. Lanzado el 6 de enero de 2026, el nuevo modelo de Lightricks genera video y audio sincronizados en un solo paso unificado, entregando resolución 4K nativa a 50 cuadros por segundo.[^2]

Resumen

LTX-2 introduce una arquitectura transformer asimétrica de doble flujo: 14 mil millones de parámetros para video, 5 mil millones para audio, acoplados mediante cross-attention bidireccional.[^3] Más allá del habla, LTX-2 produce pistas de audio coherentes incluyendo sonidos de fondo, efectos foley y ambiente ambiental.[^5]

Arquitectura LTX-2

Diseño Asimétrico de Doble Flujo

Flujo Parámetros Razón
Video 14B Mayor dimensionalidad, generación más compleja
Audio 5B Menor dimensionalidad, aprovecha el condicionamiento de video

Cross-Attention Bidireccional

Los flujos se comunican mediante capas de cross-attention bidireccional con embeddings posicionales temporales:[^14]

Capacidades

Especificación Valor
Resolución máxima 4K nativo
Tasa de cuadros Hasta 50 fps
Duración máxima 20 segundos

Habla Sincronizada

  • Sincronización labial precisa
  • Entrega vocal expresiva
  • Múltiples hablantes soportados

Pistas de Audio Ricas

Efectos Foley: Sonidos físicos que coinciden con acciones en pantalla Ambiente Ambiental: Sonidos de fondo que coinciden con el contexto de la escena

Puntos Clave

LTX-2 representa múltiples primicias para la IA generativa de código abierto:

  1. Primer Modelo Audiovisual Abierto: Generación sincronizada de video y audio en un solo modelo
  2. Salida 4K Nativa: Generación de alta resolución sin upscaling
  3. Audio Integral: Habla, foley, ambiente y elementos emocionales
  4. Lanzamiento Completamente Abierto: Pesos, código de inferencia y código de entrenamiento disponibles

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING