2026.03.09 プラットフォーム

LTX-2.3とは｜22Bオープンソース動画生成AIのスペック・VRAM・料金と主要モデル比較

LTX-2.3は、Lightricks社が2026年3月5日に公開した22Bパラメータのオープンソース動画生成AIです。映像と音声を一つのモデルで同時に生成し、アップスケーラー併用で最大4K・50fps、1回あたり最大20秒のクリップを出力できます。重みが公開されており、年商1,000万ドル未満なら商用利用も無料です。この記事は、LTX-2.3のスペックとアーキテクチャ、VRAM要件、API料金、そしてSora 2やKling 3.0など主要モデルとの比較と選定基準に絞って解説します。実際の導入手順や日本語プロンプトの作り方は、LTX-2.3の導入・実践ガイドにまとめています。

まとめ：LTX-2.3のスペックと選定の要点

LTX-2.3は22BパラメータのDiT（Diffusion Transformer）で、映像と音声を単一パスで同時生成する点が最大の特徴です。解像度はネイティブ1080p、アップスケーラー併用で最大4K・50fps、尺は最大20秒です。VRAMは1080p生成で32GB以上が推奨で、フルの22Bモデル（fp16）は重みだけで約44GB必要なため4K生成には48GB級のGPUが要りますが、FP8量子化なら720pを16GB前後、1080pを24GB級の民生GPUでも動かせます。配布チェックポイントはフルのdevと高速なdistilledの2系統（＋FP8/GGUF量子化版）で、fal.aiのAPIはfast・proのバリアントに分かれます。API（fal.ai）はFastバリアントの1080pで1秒あたり0.04ドルから、音声付き生成や延長は0.10ドルからで、オープンソースのため自社ホスティングすれば推論コストは電気代に固定できます。Sora 2やKling 3.0と比べると、LTX-2.3はオープンソース・音声同時生成・コストとカスタマイズ性で優位な一方、人物のリアリズムなど知覚品質ではクローズドモデルに一歩譲ります。用途が量産・オンプレ・縦型SNSならLTX-2.3、リアリズム最優先ならクローズドモデル、という選び分けが実務的です。各スペックの詳細は以下の本文で解説します。バージョンや料金は更新が速いため、最新は公式で確認してください。

LTX-2.3のアーキテクチャ：22B DiTと映像・音声の単一パス生成

LTX-2.3の中核は、22Bパラメータの二重ストリーム型Diffusion Transformer（DiT）です。映像を別モデルで作ってから音声を後付けするのではなく、映像と音声の潜在表現を一つのTransformerが同時にノイズ除去します。両者を双方向のクロスアテンションで結ぶため、口の動きと発話、足音と着地といった音と絵のタイミングが構造的にそろいやすいのが、後段合成型のパイプラインとの本質的な違いです。

映像・音声を同時に扱う因果VAEと二重ストリームDiT

入力の映像と音声は、それぞれ専用の因果VAE（Variational Auto-Encoder）で潜在トークンに圧縮され、テキストプロンプトは埋め込みパイプラインを通して条件付けに使われます。映像側は時空間の因果VAEでフレーム間の連続性を保ったまま圧縮するため、生成時に動きが破綻しにくい設計です。LTX-2.3ではこのVAEが刷新され、前バージョンより細部の再現とアーティファクト抑制が改善したとされています。text-to-video、image-to-video、audio-to-videoといった複数の入力形式に同じモデルで対応できるのは、この共通潜在空間の上で条件を差し替えているためです。

3パスサンプリングで土台生成→潜在アップスケール→高精細化

高解像度クリップは1回のノイズ除去で作るのではなく、多段のサンプリングで段階的に精細化します。第1パスは低解像度（例：544×960）でノイズ除去を回し、動きと構図の土台を作ります。次に潜在空間のまま2倍にアップスケール（LTXVLatentUpsampler）し、最終パスでノイズ除去のごく一部の区間だけを回して質感と輪郭のシャープさを足し戻します。「まず動きの骨格、次に高解像度のディテール」という役割分担で、いきなり4Kを1パスで生成するよりVRAMと時間を節約できるのが、この3パス構成の狙いです。ComfyUIの公開ワークフローでは各パスのステップ数やアップスケール段を調整でき、品質と速度のバランスを現場で詰められます。

LTX-2.3のスペック：解像度・fps・尺と入力形式

LTX-2.3のネイティブ出力は最大1080pで、空間・時間アップスケーラーを併用すると最大4K（3840×2160）・50fpsまで拡張できます。1回の生成で最大20秒のクリップを出力でき、extend-videoで既存クリップの延長も可能です。4K/50fpsはあくまで前述の多段アップスケールを含めた到達値で、モデル単体のネイティブ出力ではない点は導入前に押さえておくべきです。入力はtext-to-video、image-to-video、audio-to-videoに対応し、音声は生成の副産物ではなく映像と同じパスで作られます。

項目	LTX-2.3
パラメータ数	22B（Diffusion Transformer）
ネイティブ解像度	最大1080p
最大解像度（アップスケーラー併用）	4K（3840×2160）
最大フレームレート	50fps
最大尺	20秒（extendで延長可）
音声	映像と単一パスで同時生成
入力形式	text / image / audio to video

LTX-2.3のVRAM要件と対応GPU

必要VRAMは解像度と数値精度で大きく変わります。フルの22Bモデルをfp16（bf16）で動かすと重みだけで約44GB必要なため、4Kネイティブ生成にはA100など48GB級のGPUが現実的です。1080p生成は公式推奨で32GB以上、720pはFP8量子化で16GB前後まで下げられます。FP8やGGUFの量子化版、ComfyUIのウェイトストリーミングを併用すれば、RTX 4090（24GB）やRTX 5090クラスの民生GPUでも1080pの生成報告があります。ただし量子化・ストリーミングは解像度やフレーム数に制約が出て生成時間も延びるため、品質と速度のトレードオフを理解して選ぶのが安全です。

用途	精度	VRAM目安
720p	FP8量子化	16GB前後
1080p（動作報告）	FP8/量子化	24GB前後（RTX 4090等）
1080p（公式推奨）	bf16	32GB以上
4Kネイティブ	fp16(bf16)	約44GB（48GB級GPU）

VRAMが足りない場合は、いきなり4Kを狙わず1080pで生成してから空間アップスケーラーで引き上げる、distilledやFP8を使う、といった順に負荷を下げるのが実務的です。

LTX-2.3の配布チェックポイントとAPIバリアント・量子化・LoRA

LTX-2.3のモデルは、ダウンロードして自社で動かす「配布チェックポイント」と、fal.aiなどのAPI経由で使う「バリアント」の2系統に分かれます。ここは混同しやすいので先に切り分けます。配布チェックポイントはHuggingFaceのLightricks/LTX-2.3にあり、フルのdev（bf16・学習可能）と蒸留版のdistilled（8ステップ・CFG=1で高速）が基本で、これにFP8量子化版・GGUF版・空間/時間アップスケーラーが付きます。フルのdev（bf16）はディスク上で約42GBあり、ファインチューニングや最高品質の出力に向きます。distilledは推論ステップを大幅に減らした高速版で、反復検証や量産に向きます。一方、API側のfast（試行錯誤向け）とpro（本番品質向け）は720p/1080pで提供される秒課金のバリアントで、ローカルに落とす配布チェックポイントとは別物です。「dev・distilledは配布、fast・proはAPIバリアント」という区別を押さえておくと、モデル選定でつまずきません。

民生GPUで動かす場合は、ltx-2.3-22b-dev-fp8のFP8版や、ltx-2.3-22b-distilled-q4_k_s.ggufのようなGGUF量子化版を選ぶとVRAMを節約できます。スタイルや被写体の一貫性を固定したいときはLoRA（例：distilled向けのdistilled-lora系）を重ねます。オープンウェイトで重みとLoRA学習の口が開いているため、ブランド固有のルックを学習させて量産に回せるのが、クローズドモデルにはない実運用上の強みです。どのチェックポイントも同じアーキテクチャなので、まずdistilledかfastで構図を決め、確定後にproで本番、という流れが迷いにくい使い方です。

LTX-2.3のAPI料金と自社ホスティングのコスト構造

LTX-2.3はオープンソースのため、自社GPUで動かすソフトウェア利用料は無料です（年商1,000万ドル未満の企業・個人が対象のLTX-2コミュニティライセンス）。手軽に使いたい場合はAPIが選択肢で、fal.aiではFastバリアントの1080pが1秒あたり0.04ドルから、通常バリアントが0.06ドルからの従量課金です。audio-to-video・extend・retakeは解像度によらず0.10ドル前後で、生成秒数に比例する料金体系のためクレジット制より原価計算が読みやすいのが特徴です。

コスト構造の分岐点はシンプルです。試作や少量ならAPI従量課金がGPU調達より安く、生成量が増えて自社プロダクトへ組み込む段階になると、自社ホスティングに切り替えて推論コストを電気代（＋GPU償却）に固定するほうが単価を下げられます。料金・バリアント名は変動が速いので、導入前にfal.aiや公式で最新の単価を必ず確認してください。

Sora 2・Kling 3.0・Veo 3.1との比較と選定基準

LTX-2.3の最大の差別化要因は、重みが公開されたオープンソースである点です。LoRAによるカスタマイズ、オンプレミス運用、秒課金の低コストAPI、音声同時生成、縦型9:16ネイティブ対応が強みです。一方、人物表現やフォトリアルなリアリズム、複雑な物理の再現といった知覚品質では、クローズドのVeo 3.1やSora 2、Kling 3.0が優位な場面があります。

観点	LTX-2.3	Sora 2 / Kling 3.0 / Veo 3.1
公開形態	オープンウェイト（自社運用可）	クローズド（API/サービスのみ）
カスタマイズ	LoRA・ファインチューニング可	プロンプト調整が中心
音声	単一パスで同時生成	モデル・機能により差
コスト	秒課金0.04ドル〜／自社運用で電気代化	相対的に高め・クレジット制が多い
知覚品質・リアリズム	実用十分だが一歩譲る場面あり	人物・物理表現で優位

選定基準は用途で割り切るのが実務的です。SNS広告の量産、ブランドルックの一貫性、機密データのオンプレ処理、縦型ショート中心ならLTX-2.3を主軸にすべきです。逆に、映画級のリアリズムやリップシンクの完成度、複数ショットの映像演出を最優先するなら、この段階でLTX-2.3に寄せるべきではなく、クローズドモデルを選ぶほうが結果が早く出ます。多くの現場では「大量の下書きとバリエーションはLTX-2.3、最終尺の高品質カットはクローズド」と役割分担するのが2026年時点で最もコスト効率の良い運用です。なお、30秒級の一発生成を狙うならByteDance Seedance 2.5のような長尺志向モデルも比較候補になります。

よくある質問

LTX-2.3のスペック（解像度・fps・尺）は？

解像度はネイティブ最大1080pで、空間・時間アップスケーラーを併用すると最大4K・50fpsまで拡張できます。1回の生成で最大20秒のクリップを出力でき、extend-videoで延長も可能です。映像と音声を単一パスで同時生成するのが構造上の特徴で、text-to-video、image-to-video、audio-to-videoなど複数の入力形式に対応します。4K/50fpsはアップスケーラーを含む多段階パイプラインで実現する数値で、モデル単体のネイティブ出力ではない点に注意してください。

LTX-2.3の動作に必要なVRAMはどれくらいですか？

1080p生成では公式推奨で32GB以上です。フルの22Bモデルをfp16で動かすと重みだけで約44GB必要なため、4K生成には48GB級のGPU（A100など）が現実的です。一方、FP8やGGUFの量子化版、ComfyUIのウェイトストリーミングを使えば、720pを16GB前後、1080pをRTX 4090（24GB）クラスの民生GPUでも動かせる報告があります。ただし解像度やフレーム数に制約が出て生成時間も延びるため、品質と速度のトレードオフを理解したうえで使うのが安全です。

LTX-2.3の料金はいくらですか？

オープンソースのため、自社GPUで動かす場合のソフトウェア利用料は無料です（年商1,000万ドル未満の企業・個人が対象のLTX-2コミュニティライセンス）。API利用ではfal.aiがFastバリアントの1080pで1秒あたり0.04ドルから、通常バリアントで0.06ドルから、音声付き生成や延長で0.10ドル前後の従量課金です。大量生成や自社プロダクト組み込みでは、自社ホスティングに切り替えてコストを電気代に固定する選択肢もあります。料金は変動するため、導入前に公式・各API提供元で最新を確認してください。

LTX-2.3とSora 2やKling 3.0の違い・選び方は？

LTX-2.3はオープンソースで、重みが公開されている点が最大の差別化要因です。LoRAによるカスタマイズ、オンプレミス運用、低コストのAPI、音声同時生成、縦型ネイティブ対応が強みです。一方、人物表現やリアリズムといった知覚品質では、クローズドのSora 2やKling 3.0が優位な場面があります。選び方の目安は、SNS広告の量産・ブランド一貫性・機密データのオンプレ処理ならLTX-2.3、映画級のリアリズムやリップシンク最優先ならクローズドモデル、です。用途ごとに使い分けるのが2026年時点で最も実践的です。

LTX-2.3の導入手順やプロンプトの書き方は？

この記事はスペックと選定に絞っています。ComfyUIやLTX Desktopでのローカル導入手順、fal.ai APIの使い方、日本語プロンプトの設計やworkflowの実践は、LTX-2.3の導入・実践ガイドで具体的に解説しています。動作要件を満たすGPUを用意し、用途に合う配布チェックポイント（フルのdevか高速なdistilled、VRAMが厳しければFP8/GGUF量子化版）を選ぶところから始めると迷いません。

資料請求

LTX-2.3とは｜22Bオープンソース動画生成AIのスペック・VRAM・料金と主要モデル比較

まとめ：LTX-2.3のスペックと選定の要点