LTX-2:同期されたビデオとオーディオを生成する初のオープンソースモデル
テキストからビデオへのモデルは優れた視覚品質を達成していますが、無音の結果を生成します。[^1] LTX-2はこの方程式を完全に変えます。2026年1月6日にリリースされました。[^2]
要約
LTX-2は非対称デュアルストリームトランスフォーマーアーキテクチャを導入:ビデオに140億パラメータ、オーディオに50億パラメータ。[^3]
主要な要点
- 初のオープン音声ビジュアルモデル:単一モデルで同期されたビデオとオーディオを生成
- ネイティブ4K出力:アップスケーリングなしの高解像度生成
- 包括的なオーディオ:スピーチ、フォーリー、アンビエンス、感情的要素