LTX-2:首个生成同步视频和音频的开源模型

Lightricks发布LTX-2,配备14B视频参数+5B音频参数。原生4K 50fps,带唇同步、拟音和环境声音。完全开放权重。

LTX-2:首个生成同步视频和音频的开源模型

LTX-2:首个生成同步视频和音频的开源模型

文本到视频模型已经实现了出色的视觉质量,但产生的是无声结果。[^1] LTX-2完全改变了这个等式。2026年1月6日发布,Lightricks的新模型在单一统一通道中生成同步的视频和音频。[^2]

摘要

LTX-2引入了不对称双流transformer架构:140亿参数用于视频,50亿用于音频,通过双向交叉注意力耦合。[^3]

LTX-2架构

参数 原因
视频 14B 更高维度,更复杂的生成
音频 5B 更低维度,利用视频条件

关键要点

  1. 首个开放音视频模型:在单一模型中同步生成视频和音频
  2. 原生4K输出:无需上采样的高分辨率生成
  3. 完整音频:语音、拟音、环境和情感元素
  4. 完全开放发布:权重、推理代码和训练代码均可用

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING