AI

Wan2.2とは?使い方・VRAM要件・ComfyUI導入を解説【2026年最新・後継Wan2.7まで】

Wan2.2(ワン2.2)は、Alibaba(Wanチーム)が開発したオープンソースの動画生成AIモデルです。テキストや静止画から高品質な動画を生成でき、Apache-2.0ライセンスのもとで商用利用も含めて無料で使えるのが大きな特徴です。この記事ではWan2.2の使い方と必要VRAMを中心に、概要とMoEアーキテクチャ、3つのモデル(T2V/I2V/TI2V-5B)の違い、ローカル実行に必要なVRAM、ComfyUIでの使い方、そして後継のWan2.5/2.6/2.7の動向までを、2026年6月時点の最新情報で整理します。

まとめ:Wan2.2はローカルで動かせるオープンソース動画生成AI

先に要点を整理します。

  • 提供元とライセンス:Alibaba(Wan)が2025年7月に公開。Apache-2.0で商用利用も無料。コードと重みはGitHub・Hugging Faceで入手できます。
  • 3つのモデル:軽量なTI2V-5B(テキスト/画像兼用・約8GB VRAM)と、高品質なT2V-A14B(テキスト専用)・I2V-A14B(画像専用)の14B系。
  • 必要環境:5Bは8GB級GPUでも動作。14Bは量子化(fp8/GGUF)で8〜24GB、未量子化は80GB級が目安です。
  • 使い方:ComfyUIの公式テンプレートを使うのが最も手軽。GitHubクローン+CLI実行も可能です。
  • 後継動向:2025年9月にAnimate、その後Wan2.5/2.6/2.7が登場。最新仕様は必ず公式で確認してください。

以下で、特徴・モデルの選び方・VRAM要件・導入手順・後継モデルとの違いを順に見ていきます。

Wan2.2とは:Alibaba製のオープンソース動画生成モデル

Wan2.2は、Alibabaの通義(Tongyi)チームが2025年7月に公開した動画生成AIモデルです。前世代のWan2.1の後継にあたり、テキストから動画を生成するT2V(Text-to-Video)と、静止画から動画を生成するI2V(Image-to-Video)に対応しています。ソースコードとモデルの重みはGitHub(Wan-Video/Wan2.2)やHugging Face(Wan-AI)で公開されており、Apache-2.0ライセンスのもとで個人・企業を問わず自由に利用・改変・再配布できます。

最大の特徴は、オープンソースの動画生成モデルとしては異例の品質と、一般的なGPUでも動かせる現実的な動作要件を両立している点です。映画的な照明・構図・色調の制御や、パン・ティルト・ドリーといったカメラワークの指定にも対応しており、ローカル環境で高品質な動画を試せるモデルとして、ComfyUIユーザーを中心に広く使われてきました。

MoEアーキテクチャによる効率化

Wan2.2の中核技術が、Mixture-of-Experts(MoE)アーキテクチャです。これは生成プロセスを「高ノイズ段階」と「低ノイズ段階」に分け、それぞれを専門の処理モデル(エキスパート)に担当させる仕組みです。初期の粗いノイズ除去は構図全体を担う高ノイズ側が、後半の細部の仕上げは低ノイズ側が担当します。役割を分担することで、モデル全体の表現力を高めつつ、1ステップあたりの計算量を抑えています。公式仕様では、14B系モデルは合計約27Bのパラメータを持ちながら、1ステップあたりにアクティブになるのは約14B(A14B=active 14B構成)に抑えられており、計算コストを大きく増やさずに表現力を高めています。

Wan2.1からの学習データ拡張

Wan2.2では、学習データがWan2.1から大幅に拡張されたとされ、公式の発表では画像データ・動画データともに大きく増えたと説明されています。これにより、複雑な動きや多人数のシーンでも一貫性のある映像を生成しやすくなりました。具体的な増加率などの数値は変動・更新される可能性があるため、最新の正確な値は公式リポジトリやモデルカードで確認することをおすすめします。

Wan2.2のモデル一覧と選び方

Wan2.2には主に3つのモデルがあります。手持ちのGPUと用途に合わせて選ぶのが基本です。テキストからも画像からも生成したい、まず手軽に試したいなら5Bモデル、品質を最優先するなら14B系を選びます。

モデル 入力 パラメータ VRAM目安 主な用途
TI2V-5B テキスト/画像 5B 約8GB〜 軽量・お試し・検証
T2V-A14B テキスト 14B(A14B) fp8で16〜24GB(GGUFで8〜12GBも可) 高品質なT2V
I2V-A14B 静止画 14B(A14B) fp8で16〜24GB(GGUFで8〜12GBも可) 高品質なI2V
Animate-14B 画像+参照動画 14B 16GB目安 キャラ動作生成・置換

TI2V-5B:8GBから動く軽量ハイブリッド

TI2V-5Bは、テキストからの生成と画像からの生成を1つのモデルでこなせるハイブリッドモデルです。高圧縮VAEを採用しており、約8GBのVRAMで720P・24fpsの動画を生成できます。RTX 4090クラスでは5秒・720Pの動画を約9分未満で生成できると報告されており、まずWan2.2を試したい場合や、反復して試行錯誤したい場合に最適です。

T2V-A14B/I2V-A14B:品質重視の14B系

14B系は、高解像度・高品質な映像を生成したい場合の選択肢です。テキスト入力に特化したT2V-A14Bと、静止画入力に特化したI2V-A14Bの2種類があります。未量子化のフル精度モデルはVRAM 80GB級が必要とされローカルでは現実的でないため、後述するfp8やGGUFの量子化モデルを使い、RTX 4090(24GB)前後の環境で動かすのが一般的です。14B系では、HighNoiseとLowNoiseの2つのチェックポイントをセットで使う点に注意してください。

Animate-14B:既存動画から動きを再現する派生モデル

Wan2.2-Animate-14Bは、2025年9月19日に公開された派生モデルです。キャラクターの全身アニメーション生成や、人物を別キャラクターに置き換える「編集寄り」の用途に特化しています。静止画と参照動画を入力し、その動きをキャラクターに反映できます。VRAMは16GB程度が目安です。新規生成が中心のT2V/I2Vとは役割が異なるため、ダンス動画の再現やアバター生成といった用途で使い分けるとよいでしょう。

Wan2.2の必要VRAMとローカル実行の要件

Wan2.2をローカルで動かす際に最も重要なのが、GPUのVRAM容量です。モデルと量子化の有無で必要量が大きく変わります。8GBクラスのGPUなら5Bモデル、12〜24GBクラスなら14Bの量子化モデル、というのが現実的な目安です。

構成 VRAM目安 備考
TI2V-5B 約8GB RTX 3070/4060クラスでも可
14B(fp8量子化) 16〜24GB RTX 4090推奨
14B(GGUF Q3〜Q4) 8〜12GB 低VRAM向け・速度低下あり
14B(未量子化) 80GB級 ローカルでは非現実的

VRAMが不足する場合は、量子化レベルを下げる(Q4→Q3)、解像度やフレーム数を抑える、テキストエンコーダをCPU側で動かす、といった対処で動作させられます。ただし生成速度や品質とのトレードオフがあるため、まずは5Bやクラウドサービスで品質を確認してから、ローカル環境への投資を判断するのが堅実です。なお動作の前提として、GPU利用時はPyTorch 2.4以降やCUDA対応環境が必要になります。

Wan2.2の使い方:ComfyUIでの導入手順

Wan2.2を最も手軽に使う方法は、ノードベースの生成ツール「ComfyUI」を使うことです。ComfyUIは公式ワークフロー(テンプレート)が用意されており、モデルを配置すれば数クリックで動画生成を始められます。大まかな流れは次のとおりです。

手順 内容
1. 準備 ComfyUIを最新版に更新
2. モデル取得 Hugging Faceから対象モデルをDL
3. 配置 diffusion_models等の所定フォルダへ
4. ワークフロー テンプレートからWan2.2を読み込み
5. 生成 プロンプト入力して実行

モデルのダウンロード

モデルの重みはHugging FaceやModelScopeから取得します。コマンドラインで取得する場合は、Hugging Faceのコマンドラインツールを使うのが効率的です。以下はT2V-A14Bを取得する例です。

huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./models/Wan2.2-T2V-A14B

低VRAM環境では、フル精度モデルではなく量子化済みのGGUFモデル(例:HighNoiseとLowNoiseのQ4_K_S)をダウンロードし、ComfyUIのmodels/diffusion_modelsフォルダに配置します。14B系はHighNoiseとLowNoiseの2ファイルをセットで使う点に注意してください。

ComfyUIワークフローの読み込みと生成

ComfyUIを最新版に更新したうえで、メニューの「Workflow(ワークフロー)」から「Browse Templates(テンプレートを参照)」、さらに「Video」を開き、Wan2.2のテンプレート(TI2V/T2V/I2V)を選択すると、必要なノードが自動で配置されます。あとは画像入力ノードに元画像をアップロードし、プロンプトノードにテキストを入力して実行(Run/Ctrl+Enter)するだけです。「ノードが見つからない」エラーが出た場合は、ComfyUI Managerの「Install Missing Custom Nodes」で不足ノードを補完してください。

GitHubからCLIで実行する場合

コマンドラインで使いたい場合は、公式リポジトリをクローンして依存ライブラリを導入します。生成時はプロンプトをオプションで指定して実行します。

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
pip install -r requirements.txt

Wan2.2のプロンプト設計のコツ

Wan2.2は、短いプロンプトより詳細なプロンプトのほうが安定した結果を得やすいモデルです。被写体・環境・動作・スタイルを具体的に記述することで、意図に近い映像を生成しやすくなります。一般的には80〜120語程度の英語プロンプトが推奨されています。

  • カメラワーク:「camera pans left(左へパン)」「dolly in(ドリーイン)」など視点移動を明示する。
  • 映像美:「golden hour light(夕方の光)」「cinematic color grading」など照明・色調を指定する。
  • 動作:被写体の動きや表情を時系列で具体的に描写する。

また、Wan2.2は学習上5秒前後を基準に最適化されているため、それを大きく超える長さを一度に生成すると、最初のフレームに戻る挙動が出ることがあります。長尺動画は5秒前後で区切って生成し、編集ソフトで連結する運用が一般的です。なお、開始フレームと終了フレームを指定するFLF2V(First-Last-Frame to Video)を使うと、自然なループ動画を作りやすくなります。

後継モデルの動向:Wan2.5・2.6・2.7との違い

Wan2.2の登場後も、Wanシリーズは活発に更新されています。動画生成AIは進化が非常に速い領域のため、新規に導入する際は最新版の有無を確認することをおすすめします。2026年6月時点で公開情報として確認できる後継・派生の流れは次のとおりです。

モデル 時期(目安) 主な特徴
Wan2.2 2025年7月 MoE採用・オープンソース
Wan2.2-Animate 2025年9月 キャラ動作生成・置換
Wan2.5 2025年後半 動画の拡張(Video Extend)
Wan2.6 2025年12月 参照動画からの生成を強化
Wan2.7 2026年3月 複数の生成モードに対応

注意点として、オープンソースで重みが公開される範囲はバージョンによって異なります。Wan2.2は重みが公開され、ローカルで完全に動かせる点が強みでしたが、後継モデルではAPI提供が中心となるケースもあります。「ローカルで自由に動かす」ことを重視するなら、引き続きWan2.2系が有力な選択肢です。なお、Wan2.2自体はリリース後しばらくアップデートが止まっていた時期もあり、用途によっては他のオープンモデルとの比較検討も有効です。

Wan2.2と他の動画生成AIの比較

Wan2.2の立ち位置は、「オープンソースで、ローカル実行でき、無料」という点に集約されます。他モデルと比べると次のような特徴があります。

  • vs Wan2.1:MoE採用と学習データ拡張により、動きの自然さと映像品質が向上。試作はWan2.1、本番はWan2.2という使い分けの報告もあります。
  • vs LTX-2.3:LTX-2.3は映像と音声を同時生成でき、縦型動画にもネイティブ対応する後発のオープンモデル。一方Wan2.2はアニメ調やキャラクターの一貫性で依然強みがあります。詳しくは関連記事のLTX-2.3の解説を参照してください。
  • vs Sora 2など商用モデルOpenAIのSora 2のようなクローズドモデルはAPIで手軽に使える反面、利用料が発生します。コストと自由度を重視するならWan2.2のようなオープンモデルが向きます。
  • 動画制作の自動化に組み込む:台本から動画を自動生成するMulmocastのようなツールと組み合わせれば、Wan2.2で生成した素材を制作ワークフロー全体に活かせます。

FAQ:Wan2.2のよくある質問

Wan2.2は無料で使えますか?

はい。Wan2.2はApache-2.0ライセンスで公開されており、個人・企業を問わず商用利用も含めて無料で利用・改変・再配布できます。ライセンス表記を保持する条件はありますが、利用料は発生しません。

Wan2.2を動かすのに必要なVRAMはどれくらいですか?

軽量なTI2V-5Bなら約8GBから動作します。14B系はfp8量子化で16〜24GB、GGUF量子化なら8〜12GBでも動かせますが、速度や品質は低下します。未量子化のフル精度14Bは80GB級が必要でローカル向きではありません。

Wan2.2とWan2.1の違いは何ですか?

主な違いはMoEアーキテクチャの採用と学習データの拡張です。これにより動きの自然さ・複雑なシーンの一貫性・映像品質が向上しています。プロトタイプにWan2.1、本番にWan2.2を使い分ける運用も見られます。

Wan2.2で5秒以上の長い動画は作れますか?

作れますが、Wan2.2は5秒前後を基準に最適化されているため、長尺を一度に生成すると最初のフレームに戻る挙動が出ることがあります。5秒前後のクリップを複数生成し、編集ソフトで連結する方法が一般的です。FLF2V(開始・終了フレーム指定)でループ動画を作ることもできます。

Wan2.2の後継モデルは何ですか?

2025年9月のAnimate以降、Wan2.5(動画拡張)、Wan2.6(参照動画対応の強化)、Wan2.7(複数の生成モードに対応)が登場しています。ただしローカルで重みを動かせる範囲はバージョンにより異なるため、用途に応じて選んでください。

関連記事

資料請求

RELATED POSTS 関連記事