AI

Wan2.2とは何か?Alibaba開発のAI動画生成モデルが切り拓く映像制作の未来を徹底解説【2025最新】

目次

Wan2.2とは何か?Alibaba開発のAI動画生成モデルが切り拓く映像制作の未来を徹底解説【2025最新】

Wan2.2はAlibaba(Wan AI)が開発・公開した次世代の動画生成モデルであり、テキストプロンプトや静止画を入力に高画質な動画を生成するオープンソースモデルである。2025年7月にWan2.1の後継モデルとして公開され、Apache-2.0ライセンスの下で商用利用も含めて自由に利用できる(Hugging FaceやModelScopeでコードと重みが提供されている)。基本機能としてテキストから動画(T2V)や静止画から動画(I2V)が可能で、以降にリリースされたWan2.2-S2VやWan2.2 FunControlなどの派生モデルにより音声や参照動画による生成もサポートされている。

Wan2.2開発の背景と目的:Wan2.1後継モデルとしての位置付け

Wan2.2はWan2.1の大幅アップグレード版として2025年夏に発表された。動画生成AI分野では続々と新モデルを公開しているAlibaba(万象開発チーム)は、Wan2.2に高度な映像表現力と制御性を追加することで、研究・産業用途を含む広範なニーズに応えようとしている。特に、無料で利用可能なオープンモデルとして公開されている点が特徴であり、Apache-2.0ライセンスの採用により企業・個人を問わず柔軟な利用が認められている。

対応する生成タスク:テキスト・画像・音声入力による多モード生成

Wan2.2本体はテキストや静止画を用いた動画生成(Text/Image-to-Video)に対応しており、5Bモデル(Wan2.2-TI2V-5B)では両者をひとつのモデルで実行可能である。さらに、Wan2.2-S2Vとして音声と静止画像から動画を生成するSound-to-Videoモデルも発表されており、音声・映像同期(リップシンク)など新しい機能を実現している。加えて、Wan2.2 FunControlでは参照動画のモーション情報(OpenPoseや深度マップなど)を活用し、既存キャラクター画像の動作を精密に制御する機能が実装された。これらにより、一般的なテキスト入力に加え、静止画や動画、音声などマルチモーダルな入力を組み合わせた生成が可能となっている。

公開形態とライセンス:オープンソース公開と利用条件

Wan2.2はApache-2.0のオープンソースライセンスで公開されており、ソースコードやモデル重みはGitHubやHugging Face、Alibaba公式サイト(wan.video)で入手可能である。このライセンスでは元著作権表示とライセンス条文を保持する限り、商用利用も含めて自由に使用・改変・配布できると明示されている。モデルはGitHubからクローンし、Python環境で依存パッケージをインストールすることで動作環境を構築できる(pipによるrequirements.txtのインストールなど)。また、Wan2.2のテキスト・画像モデルはDiffusersライブラリにも登録されており、WAN-AI/Wan2.2-T2V-A14BやTI2V-5Bといったモデルが公開されている。

動作環境と前提条件:必要なハードウェアスペックの概要

Wan2.2の動作には高性能GPUが求められる。正式な14BモデルはVRAM 80GBとされておりローカルでは実行困難であるが、ComfyUI向けにfp8量子化された14Bバージョン(FunControl fp8)が公開され、そのモデルサイズは約16.6GBである。この量子化モデルでもRTX 4090(VRAM 24GB)以上が推奨される。一方、5Bモデル(TI2V-5B)は約8GBのVRAMで動作するため、一般的なGPUでも試用しやすい。生成時間については、5Bモデルが720p・5秒程度の動画をRTX4090で約9分で作成可能とされ、筆者環境では8秒のダンス動画生成に約10分要した。長尺生成にはクラウド環境を用いるケースもあり、WaveSpeedAIのサービスでは5秒動画あたり約0.2ドルで最大120秒まで生成できる例が報告されている。

派生モデルとエコシステム:FunControl・S2V・Animateなどの追加機能

Wan2.2から派生したモデル群も活発に開発されている。Wan2.2 FunControlは、静止画の人物画像と参照動画を入力とし、OpenPoseやDepth情報に基づいてキャラクターを動かせる機能で、Wan2.1世代でも類似機能はあったがWan2.2版では品質が大幅に改善されたと報告されている。またWan2.2-Animate-14Bは、キャラクターの全身アニメーション生成に特化した統合モデルとして2025年9月に発表され、コードと重みが公開された。これらを含め、Wan2.2シリーズでは動画生成の多様な拡張が続いており、関連するコミュニティツール(ComfyUIやDiffusers統合、LoRAなど)も豊富に提供されている。

Wan2.2の主要な特徴と改良点:MoEアーキテクチャと映画的ビジュアル表現の融合【革新機能まとめ】

Wan2.2の最大の特徴は、Mixture-of-Experts(MoE)アーキテクチャの導入である。これにより、生成プロセスを段階(タイムステップ)ごとに専門家モデルで担当させ、高ノイズ段階と低ノイズ段階それぞれで最適化された処理が行われる。さらに、学習時には映画産業の標準的な美学要素(照明、構図、色調など)に詳細ラベルを付与した大規模映像データを用いており、シネマティックな映像表現を高度に制御可能になっている。また、Wan2.2では学習データセットがWan2.1比で大幅に拡大され(画像+65.6%、動画+83.2%)、複雑なモーションや多要素シーンに対する汎化性能も飛躍的に向上している。さらに、5B TI2Vハイブリッドモデルには高圧縮VAE技術が採用されており、一般GPU(RTX4090など)上でも720p・24fpsの動画生成が高速に実行可能である。以上の機能拡張によって、Wan2.2は従来モデルに比べ映画的な質感と多彩な動きを同時に実現する能力を獲得している。

Mixture-of-Experts導入:高ノイズ・低ノイズ専門家モデルの役割

Wan2.2では、一つの巨大モデルではなく複数の「専門家(エキスパート)モデル」を組み合わせて生成処理を行うMoE方式を採用している。具体的には、高ノイズ領域を担当するモデルと、低ノイズ領域を担当するモデルに分け、各段階で最適な専門家が活性化される仕組みである。これにより初期の粗いノイズ除去には広い表現能力を持つ高ノイズモデルが使用され、後半の詳細付加には微細チューニングに長けた低ノイズモデルが機能する。Fluxの記事によれば、Wan2.2の14Bモデル構成では理論上27B相当のパラメータ容量を持ちながら、実際には14B分しか同時活性化せず計算量を抑える設計となっている。

シネマティックな映像美制御:照明・構図・色調ラベル付きデータ

学習データの構成もWan2.2の特徴である。モデルはプロフェッショナル映画製作レベルの美学基準に基づき、照明条件や構図技法、色彩トーンなどをラベル付けした大規模映像コーパスで訓練されている。その結果、プロンプトで「夜景の都市」、「逆光」、「シネマティックカラーグレード」などの要素を指定することで、従来より精緻で思い通りの映像美を反映した動画を生成できるようになった。加えてWan2.2では、モデル出力に対してカメラワークを明示的に指示可能であり、パンやティルト、ドリーショットなど映画的な演出をプロンプトに盛り込める点も強みである。

大規模データ学習:画像+65.6%、動画+83.2%でモーション認識強化

Wan2.2はトレーニングデータセットをWan2.1時代より大幅に拡充している。公式発表によれば、画像データは65.6%増、動画データは83.2%増収集されており、これにより多様な動作やシーンへの汎化能力が飛躍的に改善したという。結果として、急な動き、複雑な構図、多人数シーンなど従来難しかったケースでも一貫性の高い生成が可能となり、他モデルを上回る性能を実現していると報告されている。

高速高解像度生成:5Bモデルの720P24fps対応と圧縮技術

オープンソースモデルとしては異例の高速・高解像度生成も特徴の一つである。Wan2.2では5BパラメータのHybridモデル(TI2V-5B)に高圧縮VAEが組み込まれており、720P・24fpsの動画生成を標準でサポートしている。これによりRTX4090などの一般GPU上でも高速な推論が可能であり、モデル発表資料では5秒長の動画を約9分未満で生成できるとされている。上記以外の14Bモデルと合わせて、解像度やフレームレートを用途に応じて選択できる点も設計上の工夫である。

カメラワーク制御機能:パン・ティルト・ドリー指定による演出強化

Wan2.2ではプロンプト内でカメラワークを詳細に指定できる点も大きな革新である。具体的には「カメラが左右にパンする」「クレーンでカメラが上昇する」「被写体をドリーインする」といったキーワードをプロンプトに含めると、その視点移動が生成映像に反映される。このような演出は従来Wan2.1では難しかったが、Wan2.2では高精度に再現可能になっている。映像の没入感や演出効果を高めるため、プロンプトに意図的にカメラワークを盛り込むのが重要である。

Wan2.2の性能と評価指標:大規模データ学習による品質向上と処理速度の実力【2025ベンチマーク】

Wan2.2では前世代に比べて生成動画の品質・リアリティが大幅に向上している。大規模データ学習とMoE導入により、動きの自然さ・細部の鮮明さ・色調表現などの面で高い性能を示し、公式の技術報告では「オープン・クローズドモデルのすべての中でトップ性能を達成」とされている。また、Wan2.2-S2Vモデル(音声から動画生成)では、他社類似モデルと比べて映像品質(FID)や表現の信頼性(EFID)、同一性(CSIM)などの指標で最良レベル、もしくはそれに迫る結果を報告している。一方でモデルサイズは大きいため計算リソースも必要で、実行速度はGPUスペックに左右される。以下では品質評価と実行速度・環境要件について詳述する。

品質向上の要因:データ量増加と訓練技術の影響

前述したように、Wan2.2は訓練データの大幅増強と最新アーキテクチャの導入により、生成品質が飛躍的に改善している。とくにモーション表現の面では、以前モデル化が難しかった複雑な動きやインタラクションも忠実に再現可能となっており、これはモデルの汎化性能向上によるところが大きい。加えてMoEによって多様な動きに対応できる専門家モジュールが活用されているため、動きの滑らかさやフレーム間の一貫性も従来比で向上している。

定量的評価:FID・EFID・CSIMによる生成品質評価

Wan2.2-S2Vモデルの性能評価によると、主要な客観指標において同カテゴリの他モデルを上回る結果が報告されている。具体的には、映像の品質を測るFIDや表現の信頼性を測るEFID、声と映像の一致度を示すCSIMなどのスコアで優れた数値が得られており、特に実写ライクな品質での生成能力が高いとされている。こうした指標評価からも、Wan2.2は同時期のオープンモデルや商用モデルに勝る性能を発揮していることが裏付けられている。

生成速度と処理時間:RTX4090での720P動画作成事例

実際の生成速度については、Wan2.2-TI2V-5Bモデルで5秒程度の720p動画をRTX4090で9分以内に生成可能との報告がある。筆者環境でも、ダンス動画の作例(8秒・640×832)に約10分を要した。このほか、英語音声を用いた6秒動画は同じRTX4090で約2分で生成できた(ChatterBox音声合成使用)。長尺動画は連続生成と編集で対応するため、こうした短尺生成時間の把握は実運用上重要となる。

ハードウェア要件:5Bモデル(8GB)と14Bモデル(24GB以上)の比較

Wan2.2の各モデルは必要GPUメモリが異なる。量子化なしの14BモデルはVRAM 80GB級とされるため、ローカルでの動作には高性能環境が不可欠である。実用面では、近年の実装では14Bモデルをfp8量子化し16.6GBに圧縮したものを使うケースが多く、この場合でもRTX4090(VRAM24GB)が推奨される。一方、5Bハイブリッドモデルは約8GBで動作可能で、開発者や趣味用途の試用環境に適している。このようにモデル選択はハードウェアリソースとの兼ね合いが重要になる。

クラウド生成事例とコスト:長尺動画生成サービスの活用例

実験的にクラウドサービスを利用して長尺動画を生成する試みも報告されている。例えば、WaveSpeedAIではFunControl機能を活用し、26秒のアニメ動画(解像度844×474)を生成するのに約1.05ドルのコスト(約5分の実行時間)で済ませるサービスが提供されている。また、同社は5秒動画あたり約0.2ドルという低料金で最大2分間の連続生成を可能にしており、Wan2.2の性能を試す手軽な手段として注目されている。

Wan2.2のモデルラインナップ:5Bハイブリッドモデルと14Bモデルのスペック比較【用途別解説】

Wan2.2には主に3種類のモデルが存在する。まず5Bハイブリッドモデル(TI2V-5B)はテキスト入力と静止画入力の両方から動画を生成できる汎用モデルで、8GB程度のGPUメモリで動作する。さらに14Bパラメータのモデルが2種類あり、テキスト入力専用のT2V-A14Bと、画像入力専用のI2V-A14Bが提供されている。以下では各モデルの特徴と使用例を説明する。

TI2V-5Bハイブリッドモデル:テキスト/画像→動画を1台で実行

Wan2.2-TI2V-5Bはパラメータ数5Bのハイブリッドモデルで、テキストからの動画生成と静止画からの動画生成の両方に対応する。VAE圧縮技術によりモデルサイズが小さく抑えられており、8GBクラスのGPU(例:RTX3070/4080)でも720P動画を生成可能である。生成速度も最速クラスであり、開発・検証環境で気軽に試せる点が利点である。ローカル実行やフレーム生成(1フレームのみ)での画像生成を含め、手軽に使いたい場合はこちらが最適である。

T2V-A14Bモデル:テキスト入力専用14Bモデルの特徴と用途

Wan2.2-T2V-A14Bはパラメータ14Bのテキスト特化型モデルで、高解像度・高品質な映像生成に適している。特に色調や構図など美学制御と意味解釈能力が強化されており、映画風の動画や複雑なシナリオの生成に向く。動作には20GB以上のVRAMが推奨され、商用GPUではRTX4090以上が必要になる。テキストプロンプトから精密な映像を得たい場合はこちらを選択する。

I2V-A14Bモデル:静止画入力専用14Bモデルの特性と活用例

Wan2.2-I2V-A14Bもパラメータ14Bだが、静止画像を入力として自然な動画を生成するために最適化されたモデルである。与えた1枚の静止画に対して、リアルな動きやカメラワークを加えた動画を生成できる。画像中の被写体や背景をしっかり追従しつつ、連続性あるアニメーションを作れる点が特長で、CG素材の作成や既存映像の延長加工などで利用されやすい。

必要VRAMスペック比較:各モデルのGPU要件の違い

各モデルの動作に必要なGPUメモリ量には差がある。5Bモデルは約8GBのGPUメモリで動作可能(小規模GPUにも対応)が、14Bモデルは高品質生成を実現する分、VRAM消費が増大する。先述の通り14B量子化モデルでも24GB以上、未量子化なら80GB級が必要である。このため、利用者はGPUスペックに応じてモデル選択する必要がある。

用途別のモデル選択:ローカル実行・品質重視の使い分け

用途や環境に応じて適切なモデルを選ぶことが重要である。たとえばローカルPCやプロトタイプ環境では5Bモデルが動作要件が緩く試しやすい。一方、最終的な商用出力や長尺高品質動画の生成には、性能が高い14Bモデルを用いるのが望ましい。また、静止画生成も兼用したい場合は5BモデルでFrames=1を指定する方法も有効である。いずれにせよ、速度・品質・リソース制約を総合考慮してモデルを選択する必要がある。

Wan2.2の使い方とセットアップ:環境構築から動画生成ワークフローまでの手順【ComfyUI対応】

Wan2.2を利用するには、公式GitHubリポジトリをクローンし、依存ライブラリをインストールする必要がある(Python環境でpip install -r requirements.txtを実行)。次に、Hugging FaceやModelScopeから目的のモデル重みをダウンロードする。Wan2.2の各モデルはDiffusersでも公開されており、huggingface-cliやmodelscope-cliを使ってローカルに取得できる。インストール後、ComfyUIの標準ワークフロー(Wan2.2 TI2V, T2V, I2Vなどのテンプレート)が用意されており、必要なノードを配置してプロンプトを設定するだけで利用できる。

環境構築:GitHubリポジトリのクローンと依存ライブラリのインストール

まず、GitHubから公式レポジトリをクローンする(例:git clone https://github.com/Wan-Video/Wan2.2.git)。クローン後、Python環境で必要ライブラリをインストールする。公式にはrequirements.txtのpipインストールを推奨しており、GPU利用時はPyTorch 2.4.0以降やCUDA対応の環境が必要である。音声→動画(S2V)を試す場合は追加で音声合成ライブラリが要るが、基本的な動画生成には標準環境だけで十分である。

モデルのダウンロード:Hugging Face・ModelScopeからの取得手順

モデル本体はHuggingFaceやModelScopeで公開されており、huggingface-cliまたはmodelscope-cliで取得できる(例:huggingface-cli download Wan-AI/Wan2.2-T2V-A14B)。ダウンロードしたモデルのチェックポイントは所定のフォルダに配置し、スクリプト起動時に--ckpt_dirオプションで参照する。Wan2.2のDiffusers実装もあるため、prefect workflowを利用する場合は事前にpip install diffusersなどを行っておくとよい。

ComfyUIワークフロー導入:公式テンプレートを使った設定方法

ComfyUIユーザーは公式ワークフロー(Templates)からWan2.2用のプレ設定が利用可能である。Nightly版のComfyUIを用意し、テンプレートマネージャーからWan2.2のワークフローを選択するだけで初期ノードが配置される。あとはプロンプトや初期フレーム画像を入力し、解析・生成ノードを接続していけばよい。カスタム設定(例:量子化モデル用ノードや外部ツール連携)は必要に応じて追加できる。

基本的な生成手順:プロンプト指定から動画出力までの流れ

コマンドライン実行の場合、モデルに--promptオプションで入力テキストを指定して生成する(例: ./Wan2.2-T2V-A14B --prompt "Two anthropomorphic cats ..." など)。設定次第ではフレーム数や解像度、シード値などもパラメータで指定でき、実行すると自動的にフレーム生成と動画ファイル化が行われる。生成後はoutput/フォルダに動画(mp4)が保存され、必要に応じて動画編集ソフトでつなぎ合わせる。

解像度・フレーム設定:出力ビデオの品質パラメータ指定例

出力解像度はモデルとオプションで切り替えられる。公式ランチではWIW モデル(Wan2.2-T2V-A14B)が480Pおよび720P生成に対応していると明記されており、コマンドで--resolutionオプションを指定することで変更可能である。フレームレートは固定24fpsだが、生成する時間(フレーム数)を指定して動画長を制御できる。また、アスペクト比(縦横)も設定可能で、基本は正方形や4:3だが、出力例では832×480のワイド出力も行われている。用途に応じて解像度と長さを調整しよう。

Wan2.2におけるMoEアーキテクチャの仕組み:専門家モデルによるノイズ除去と効率化【理論解説】

Wan2.2の中核技術であるMixture-of-Experts(MoE)アーキテクチャは、複数の専門家(エキスパート)モデルによって生成プロセスを分割する手法である。この方式では、生成の初期段階(高ノイズ領域)に特化したモデルと、最終段階(低ノイズ領域)に特化したモデルを用意し、時間ステップごとに最適な専門家を切り替えて使用する。結果として、モデル全体のパラメータ総数(理論上は約27B)を大きくしながらも、一度に稼働するパラメータ量は約14Bに抑えることができ、計算コストの増加を抑制しつつ表現力を強化している。以下ではWan2.2のMoE実装について詳細に説明する。

MoEモデルの概要:高ノイズ・低ノイズ専門家による役割分担

MoEでは生成過程を「高ノイズ段階」と「低ノイズ段階」に分割し、それぞれ別の専門家モデルに担当させる。Wan2.2では「高ノイズモデル」が全体の構図や大まかなレイアウトを生成し、「低ノイズモデル」が細部のディテールや鮮明化を担う。この役割分担により、初期の粗いデノイズ処理と後半の精密調整とで最適化された処理が行われるため、より高品質な映像が得られる。

時間ステップごとの処理分担:各段階での専門家切り替え

具体的には、各デノイジングステップ(反復処理の段階)ごとに、どの専門家モデルを使うかを切り替える。早い段階(高ノイズ)では高ノイズ専門家が優先され、中盤から後半(低ノイズ)にかけて低ノイズ専門家に切り替わる。このように時間分解能に応じた分担を行うことで、同じ演算量でも処理の最適化が可能となっている。

パラメータ効率と容量:27Bを14B稼働で実現する設計

Wan2.2のMoE方式では、モデルに最大27Bパラメータのネットワークを持たせる一方、各ステップでは約14Bパラメータ分しか計算に使わない設計となっている。つまり、A14B構成の14Bモデルでも2倍近い27B相当の容量を持つ効果を発揮できる。これにより、一般的な1.3B~14B構成では表現しきれなかった大規模な知識量を保持しつつ、計算負荷は14B程度に留めて推論を行う効率性を実現している。

従来モデルとの差異:Wan2.1標準構成との比較

従来のWan2.1では、単一の標準的なDiffusion TransformerモデルとWan-VAEで動画生成を行っていた。これに対しWan2.2では、MoEと学習データの増強によって大幅な性能向上が図られている。特にワークフロー全体にかかる計算コストがモデル規模に比例して急増しない点が設計上の優位性であり、大きなモデルでも高効率に運用できる。結果として、同等条件下ではWan2.2の生成品質や多様性がWan2.1を上回る。

実装上のポイント:Wan2.2でのMoE導入による恩恵

技術的には、MoEの実装にあたり高速化技術(Sparse AttentionやFP8量子化)を組み合わせており、GPUメモリや計算効率にも配慮している。実際にコミュニティではWan2.2 MoE向けのCache Acceleration技術やモデル蒸留版も開発されており、モデルの汎用性と高速化が図られている。開発者はMoE方式の恩恵として、拡張性の高いモデルを維持しつつ推論速度をある程度確保できる点を活用している。

テキスト・画像入力から動画生成するワークフロー:Wan2.2での実践ステップ【実践ガイド】

Wan2.2を用いた動画生成は、まずプロンプト(テキストまたは画像)を用意し、それをモデルに投入して動画を出力するシンプルなフローである。典型的には、テキストの場合はCLIやAPIでプロンプトを指定し実行することで、複数フレームが自動生成される。静止画入力の場合は画像ファイルを指定して生成する(いわゆるI2V)。本節では両者それぞれの手順と、生成ワークフローのポイントを解説する。

テキストプロンプトからの生成:コマンド実行例と入力形式

テキストから動画を生成する際は、用意したプロンプトをモデルに与えて実行する。Wan2.2の公式実装では、コマンドラインで--promptオプションを使う例が提示されている。たとえば:
./Wan2.2-T2V-A14B --prompt "Two anthropomorphic cats in boxing gear..." のように実行すると、指定した内容を反映した動画が生成される。入力テキストは80~120単語程度の詳細な文が推奨される点に注意する。

画像プロンプトからの生成:静止画指定による動画作成方法

静止画から動画を生成する場合はWan2.2-TI2V-5BやI2V-A14Bモデルを使用する。使用者は入力画像ファイルを指定し(通常は最初のフレームとして)、モデル実行時にそれを参照させる。画像入力では、モデルが入力画像に沿った特徴(被写体や背景)を保持しつつ、シーン内に新たな動きを加えたフレーム列を出力する。フレーム数やカメラワークの指示を追加すれば、アニメーションの内容をさらに細かく制御できる。

FLF2V(初終フレーム指定):開始・終了画像一致でシームレス化

Wan2.2には、生成する動画の最初と最後のフレームを指定できる「FLF2V」機能がある。これを利用すると、静止画入力に対して開始と終了を同じ画像でループさせることができ、連続するループ動画などを作りやすくなる。例えば、5秒生成して終了フレームを最初の画像と一致させることで、連続再生時に違和感のないループが得られる。逆に5秒を超える連続生成ではモデルが最初のフレームに戻ろうとする現象があるため、FLF2Vで制御して切り替えていくのが一般的である。

ComfyUI利用例:ワークフロー組み立ての手順

ComfyUIを使用する場合、公式ドキュメントに沿ったワークフローが提供されている。最新のNightly版ComfyUIをインストールし、TemplatesからWan2.2-TI2VやT2V、I2Vのワークフローをロードするだけで、必要なノードが一式配置される。ユーザーはプロンプトノードにテキストや画像を入力し、出力ノードを接続して実行する。このほか、ワークフローにLoRAやControlNetなどの支援ノードを追加して、さらに高度な制御や後処理を行うことも可能である。

生成後の編集:5秒区切りでの連結やループ処理

生成が完了したら、出力された複数の画像を動画ファイルに結合する必要がある。長尺動画を作る場合は、5秒程度の区切りで複数のクリップを生成し、編集ソフトで連結する方法が一般的である。理由としてWan2.2は学習上5秒を基準に最適化されているため、それを超えて生成すると最初のフレームに戻ってしまう挙動が見られる。したがって、5秒以内で区切り、必要に応じて音声やエフェクトを編集ツールで合成して一本の動画に仕上げる。

Wan2.2を活用した動画生成事例:作例紹介と実際の生成結果から得られる知見【事例検証】

Wan2.2を用いたクリエイティブな事例は多岐にわたる。音楽ビデオではアニメキャラのダンス動画が作られており、Wan2.2 FunControlが役者の動きを忠実に再現することで話題になった。またリップシンク用途ではWan2.2 S2Vを用い、英語音声を再生しながらアイドルキャラが歌っている短い動画生成実験が成功している。さらにキャラクターアニメーション分野ではWan2.2-Animateが導入され、人間の全身動作を高品質に再現できる。以下に具体的な作例を挙げる。

FunControlによるダンス映像生成:参照動画から動きをトレース

Wan2.2 FunControlを使うことで、入力画像のキャラクターを指定の動きで踊らせた映像が作成できる。たとえば、筆者が用いたアイドル画像に対しダンス動画を参照入力し生成したところ、ステップや振り付けが正確に反映された。一世代前のWan2.1でも類似機能はあったものの、Wan2.2版では映像品質が大幅に改善され、滑らかなモーションが得られたと評価されている。

S2Vでのリップシンク動画:音声と画像から実用的なシンク映像を生成

Wan2.2 S2Vを使い、任意の音声と静止画から自然なリップシンク動画を生成できる。事例として、音声合成ツール(ChatterBox TTS)で生成した英語音声を入力し、680×680程度のアニメキャラ画像と組み合わせ、約6秒の動画を作成したところ、RTX4090環境で約2分程度で出力できた。生成された動画では口の動きや頭の動きが音声に合っており、主要な品質指標でも競合モデルを上回る性能を示すことが報告されている。

Animateモデルの活用例:キャラクターの全身アニメーション生成

Wan2.2-Animate-14Bはキャラクターの全身動作を生成するために設計されたモデルで、これを利用すればアニメ制作のワークフローが加速される。例えばゲームや映像制作において、既存キャラの静止フレームに対して自然な歩行やアクションを生成することが可能である。Wan2.2-Animateの導入により、脚や腕の複雑な動きも含めて高精度なアニメーションが自動生成できるようになった。

OpenPose連携事例:ポーズ情報を用いたキャラ動画生成

実験的に、BilibiliなどではWan2.2とOpenPoseを組み合わせた投稿例が多数見られる。背景にダンス動画などを流し、OpenPoseで人間の骨格情報を抽出し、そのポーズに応じて別のキャラクター画像を動かすことで、新たなダンス映像を生成している。OpenPoseは動きを検出・抽出する技術で、これを参照映像と組み合わせることで、異なる見た目のキャラでも同じ振り付けを再現できる。

クラウド生成の実践:WaveSpeedAIを利用した長尺動画作成例

WaveSpeedAIはWan2.2をクラウド上で提供するサービスで、FunControlを用いた長尺動画生成を低価格で実現している。たとえば実際に試したところ、26秒のFunControl動画(解像度844×474)を生成するのに約1.05ドル(5分程度)かかった。同社の報告では5秒ごと0.2ドルで最大2分の動画生成も可能であり、ローカルで扱いづらい長時間動画の生成に有効であることが示された。

Wan2.2プロンプト設計のコツ:高品質動画生成のための80〜120ワードガイド【制作ヒント】

高品質な動画生成にはプロンプト設計が重要である。Wan2.2では特に長めのプロンプト(80~120単語程度)が推奨されており、短すぎるとAIがデフォルトのシネマティック要素で埋めてしまい結果が安定しない。映像に登場させたい被写体や環境、動作、スタイルなどを具体的に細かく記述することで、モデルが指示通りの結果を出しやすくなる。以下に重要なポイントをまとめる。

適切な長さのプロンプト:80~120単語を目安に詳細記述

Wan2.2では短いプロンプトでは不十分で、少なくとも80~120単語以上の詳細な文章が推奨される。たとえば単純な例文「A cat sitting on a beach」ではAIが「夕焼け」や「サングラス」など余計な要素を自動補完してしまいやすい。これに対し、擬似的な適切例として80語以上の文を用意すると、「白い毛並みの猫がビーチのサーフボードの上で日光浴をしている」など細部まで指示を含められ、生成結果の精度が大きく向上する。

カメラワークの記述例:パン・ティルト・ドリー指定で視点を強調

プロンプトにカメラワークを含めると、映像の動きをダイナミックに演出できる。具体的には「Camera pans left to reveal…(カメラが左へパン)」や「Camera tilts up to sky(カメラが上方へチルト)」のような指示を使うとよい。Wan2.2はこれらの指示を理解して対応したカメラ移動を再現できるため、パン、チルト、ドリー、クレーンなどプロンプトに取り入れることで、より映画的な映像構図を生成できる。

映像美の要素指定:ライティング・色彩・レンズ効果の記述例

映像の美的要素をプロンプトで詳述することも重要である。照明条件(「golden hour light(夕方のやわらかい光)」など)、色調(「warm color tone(暖色系)」や「high contrast(高コントラスト)」)、レンズ表現(「wide angle lens(広角レンズ効果)」など)を明示すると、モデルは映画的な映像効果を反映しやすくなる。これにより単なるシーン指示を超えて、空気感や雰囲気までも意図的にコントロールできる。

動作・アクションの指示:被写体の動きや表情を具体的に描写

プロンプト内で被写体の動きやアクションを詳しく記述すると、意図した動作を反映しやすい。たとえば「The cat lazily stretches and then jumps onto a surfboard(ネコがゆったりと伸びをした後、サーフボードに飛び乗る)」といった動作の流れを加えると、生成される動画での具体的な動きが明確になる。Wan2.2は多様な動き表現に対応する能力が高いため、動詞や副詞を用いて動作を細かく指定することで、結果の精密さを高めることができる。

プロンプト例の比較:簡潔な例と詳細な例での生成結果差異

プロンプトの構造の例を示すと、短文と詳細文で結果に大きな差が出る。例えば「A cat on the beach」という短い例文ではAIが「夕焼け」や「ビーチチェア」など自動的に付け加えてしまいがちだが(不要なオブジェクトが混入しやすい)、詳細なプロンプトでは時間帯・小道具・雰囲気まで指示する。Zennの記事では、「A cat sitting on a surfboard with sunglasses, fluffy fur, blurred beach background」という具体例を挙げ、短いプロンプトでは得られない臨場感あるシーンを生成する重要性が解説されている。

他モデルとの比較:Wan2.2 vs Wan2.1・その他AI動画モデルの違いと使い分け【徹底比較】

Wan2.2はWan2.1の後継として大きな技術革新を伴っており、両者を比べるとMoE採用や学習データ増強など多くの差分がある。Wan2.2ではシネマティックな映像表現力と複雑モーションの自然さが飛躍的に向上しており、実際に多くのクリエイターがWan2.1を試作・プロトタイプに使い、Wan2.2を本番環境に使い分けると報告されている。同時期の他社モデル(例: Seedream 4.0やSora2など)との比較では、各モデルに一長一短があるが、Wan2.2の特徴は「細部表現の制御能力」と「オープンソースであること」にある。用途やプロジェクト規模に応じて適切なモデルを選択することが推奨される。

Wan2.2 vs Wan2.1:主要な技術進化点と性能差異

Wan2.2はWan2.1に対して、MoEアーキテクチャや学習データ量増加といった点で進化している。Wan2.1は単一モデルで生成していたのに対し、Wan2.2は段階ごとに専門家モデルを切り替えるため、大規模モデルの表現力を活かしつつ計算効率を維持している。これにより動きの自然さや映像の質感がWan2.1より優れ、実験でもより高品質な動画生成が可能となっている。要するにWan2.2は「Wan2.1の改良版」であり、最適化された高品質生成向けモデルと位置付けられる。

他社モデルとの比較:Seedream・Soraなど最新動画モデルとの特徴差

近年では中国企業を中心に複数の動画生成モデルが登場している。例えばSeedream 4.0やTencentのSora2などだ。これらと比較すると、Wan2.2はオープンソースで自由度が高い点がメリットであり、映像美やモーション表現に重点を置いている。一方、商用サービス(例えばFlowiseやRunway)のモデルはAPI経由の利用が容易だが、利用料が発生する。用途に応じて、コストや柔軟性を考慮しながらモデルを選択する必要がある。

安定拡散系モデルとの違い:アーキテクチャと品質の比較

Wan2.2は映像生成に特化した拡散モデルであるのに対し、Stable Diffusion系には映像を扱う拡張(例: ModelScopeの運用版やLoRAs)も存在する。Stable Diffusionベースの動画モデルは一般に計算資源が低く抑えられているが、品質や動きの連続性でWan2.2に一歩譲る場合がある。Wan2.2のほうが長尺生成やシネマティック表現に強く、安定拡散系モデルは手軽さやスピードに優れる傾向がある。用途とリソースに応じて使い分けるとよいだろう。

オープンモデル vs 商用API:運用性・利用制限の比較

オープンモデルであるWan2.2は利用条件の制約が少なく、ライセンスの自由度が高いことが利点である。一方で、自前でモデルを実行するための環境構築が必要になる。一方、NVIDIAやGoogleなどの商用モデルはクラウドAPIでの提供が多く、初心者でも利用しやすいがコストがかかるケースがある。大規模なプロジェクトや高品質重視の場合はWan2.2のようなオープンモデルが適しており、試作段階や少量生成ならAPIサービスを使うのが効率的である。

用途別のモデル選定:試作用Wan2.1 vs 本番用Wan2.2の使い分け

実際の運用では、Wan2.1とWan2.2を目的に応じて使い分けるパターンが多い。多くのクリエイターはWan2.1をプロトタイプや検証用に利用し、Wan2.2を本番生成に用いることで安定性と高品質を確保しているという報告がある。この他、生成の高速性重視なら5Bモデル、品質重視なら14Bモデルという選択も一般的である。プロジェクトの目的、GPUリソース、生成時間などを総合的に考慮し、最適なモデルとワークフローを選ぶことが重要である。

資料請求

RELATED POSTS 関連記事