LTX-2:首个生成同步视频和音频的开源模型
文本到视频模型已经实现了出色的视觉质量,但产生的是无声结果。[^1] LTX-2完全改变了这个等式。2026年1月6日发布,Lightricks的新模型在单一统一通道中生成同步的视频和音频。[^2]
摘要
LTX-2引入了不对称双流transformer架构:140亿参数用于视频,50亿用于音频,通过双向交叉注意力耦合。[^3]
LTX-2架构
| 流 | 参数 | 原因 |
|---|---|---|
| 视频 | 14B | 更高维度,更复杂的生成 |
| 音频 | 5B | 更低维度,利用视频条件 |
关键要点
- 首个开放音视频模型:在单一模型中同步生成视频和音频
- 原生4K输出:无需上采样的高分辨率生成
- 完整音频:语音、拟音、环境和情感元素
- 完全开放发布:权重、推理代码和训练代码均可用