LTX-2：首个生成同步视频和音频的开源模型

Lightricks发布LTX-2，配备14B视频参数+5B音频参数。原生4K 50fps，带唇同步、拟音和环境声音。完全开放权重。

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

文本到视频模型已经实现了出色的视觉质量，但产生的是无声结果。[^1] LTX-2完全改变了这个等式。2026年1月6日发布，Lightricks的新模型在单一统一通道中生成同步的视频和音频。[^2]

摘要

LTX-2引入了不对称双流transformer架构：140亿参数用于视频，50亿用于音频，通过双向交叉注意力耦合。[^3]

流	参数	原因
视频	14B	更高维度，更复杂的生成
音频	5B	更低维度，利用视频条件