2026.07.02 Gemini

Gemini Omni Flashとは？動画生成・会話型編集の特徴と料金・Veoとの違いを解説

「動画生成AIは一発勝負で、思いどおりに修正できない」という従来の常識を変えるモデルが登場しました。Googleの新モデル「Gemini Omni Flash」です。本記事では、公式発表とAPIドキュメントにもとづいて、機能・料金・Veoとの違い・現時点の制約・企業導入の判断基準を整理します。

1 まとめ：Gemini Omni Flashの要点
2 Gemini Omni Flashとは
- 2.1 「Nano Bananaの動画版」という位置づけ
- 2.2 Veo・Imagenなど従来モデルとの構造的な違い
3 Gemini Omni Flashの主な機能
4 Gemini Omni Flashの利用方法と料金
- 4.1 Geminiアプリ・Google Flow・YouTubeでの利用
- 4.2 Gemini API・Google AI Studioでの利用（2026年6月30日開始）
5 Veoや他の動画生成AIとの違い
- 5.1 Veo 3.1との使い分け
- 5.2 SoraやRunwayなど他社モデルとの違い
6 プレビュー段階の機能制約
7 企業導入の判断基準
8 よくある質問
9 関連記事

まとめ：Gemini Omni Flashの要点

Gemini Omni Flashは、Googleが2026年5月19日（米国時間）のGoogle I/O 2026で発表した動画生成・編集AIモデルです。テキスト・画像・音声・動画を自由に組み合わせて入力でき、生成した動画を会話形式で繰り返し修正できる点が従来の動画生成AIとの最大の違いです。

本記事の要点は次の5点です。

新モデルファミリー「Gemini Omni」の第一弾で、Googleは「Nano Bananaの動画版」と位置づけている
生成後の動画を自然言語で段階的に編集でき、キャラクターの一貫性や物理法則が保たれる
Geminiアプリ・Google Flow（Google AI Plus/Pro/Ultra加入者向け）とYouTube Shorts（無料）で順次提供中
2026年6月30日からGoogle AI StudioとGemini APIでパブリックプレビューが開始され、料金は動画出力1秒あたり0.10ドル
現時点では生成できる動画は最大10秒で、音声編集や動画の延長には非対応

まず全体像を押さえたうえで、機能の詳細、利用方法と料金、Veoとの違い、導入判断のポイントを順に見ていきましょう。

Gemini Omni Flashとは

Gemini Omni Flashは、Google DeepMindが開発したマルチモーダルAIモデルです。テキスト・画像・音声・動画のあらゆる組み合わせを入力として受け取り、高品質な動画を生成・編集できます。2026年5月19日（米国時間）に開催されたGoogle I/O 2026で発表され、日本語の公式ブログでも翌20日に紹介されました。

名称にある「Omni」は、入力も出力もマルチモーダルであることを表しています。Gemini Omniファミリーとしてはまず動画出力から提供が始まり、画像や音声の出力にも今後対応する計画です。ベースとなるGeminiの言語・推論能力については、Gemini 3とは？Google最新AIモデルの特徴・ラインアップ・料金で全体像を整理しています。

「Nano Bananaの動画版」という位置づけ

Googleは公式ブログで、画像生成・編集モデルのNano Bananaに続く流れとしてGemini Omniを紹介しています。Nano Bananaは「会話しながら画像を仕上げる」体験で支持を集めたモデルでした。Gemini Omni Flashはその設計思想を動画に拡張したものであり、単発の動画生成ツールというより、Googleの生成メディア機能全体を広げる位置づけの発表と理解するのが正確です。

Veo・Imagenなど従来モデルとの構造的な違い

従来のGoogleの生成AIは、動画のVeo、画像のImagen、音楽のLyriaというようにモダリティごとに別モデルが担当していました。Gemini Omniはこれらを単一のアーキテクチャに統合し、テキスト・画像・音声・動画を横断して文脈を共有しながら推論する設計です。Geminiが持つ歴史・科学・文化に関する知識と物理法則への理解を動画生成に反映できるため、見た目の美しさだけでなく、論理的に破綻のない映像を作れると説明されています。

Gemini Omni Flashの主な機能

公式発表とAPIドキュメントで示されている機能は、大きく4つに整理できます。

マルチモーダル入力による動画生成

テキストプロンプトだけで動画を生成できるほか、参考となる画像・音声・動画を組み合わせて入力できます。静止画に動きを付けてアニメーション化したり、手書きのスケッチを映像化したりといった使い方も可能です。生成できる動画は現時点で最大10秒、アスペクト比は16:9と9:16に対応しています。

会話型編集（文脈を引き継ぐマルチターン編集）

Gemini Omni Flashの核心となる機能が会話型編集です。生成した動画に対して「背景を夕暮れに変えて」「カメラをもう少し引いて」と自然言語で指示を重ねるだけで、段階的に映像を調整できます。すべてのプロンプトが前の文脈を引き継ぐため、登場キャラクターの見た目や声のトーンは一貫して保たれ、シーン全体の流れも記憶される仕組みです。従来の「生成→気に入らなければ最初からやり直し」という一方通行のワークフローとの決定的な違いがここにあります。

世界知識と物理法則にもとづく映像表現

重力・運動エネルギー・流体力学といった物理への理解が向上しており、水や物体の動きが自然に表現されると公式に説明されています。また「次に何が起こるか」を論理的に推論できるため、ストーリー性のある動画や、複雑な概念を噛み砕いた解説動画の生成にも向いています。

SynthIDとC2PAによる生成コンテンツの識別

Gemini Omniで作成されたすべての動画には、電子透かし技術SynthIDが埋め込まれます。加えてC2PA Content Credentialsにも対応しており、動画がAIによって生成されたものかどうかをGeminiアプリやGoogle検索を通じて確認できます。企業がAI生成動画を公開する際のトレーサビリティを支える仕組みです。

Gemini Omni Flashの利用方法と料金

Gemini Omni Flashは、一般ユーザー向けと開発者向けの2系統で提供されています。

Geminiアプリ・Google Flow・YouTubeでの利用

Google AI Plus・Pro・Ultraのいずれかの有料プランに加入していれば、GeminiアプリとGoogle Flowで利用できます。GeminiアプリではモデルをOmniに切り替え、チャット欄に動画の内容を入力するだけで生成が始まり、日本語での指示にも対応しています。また、YouTube ShortsとYouTube Createアプリでは無料での順次提供が発表されているものの、提供状況は地域やアカウントによってまちまちです。Geminiアプリ自体の起動手順はGeminiの呼び出し方｜Android・iPhone・PC別の起動方法と設定で解説しています。

Geminiアプリでの操作は次の流れです。

Geminiアプリ（gemini.google.com）にアクセスし、有料プランのアカウントでログインする
動画作成メニューからモデルをGemini Omni Flashに切り替える
チャット欄に動画の内容をテキストで入力する（参考画像・音声・動画の添付も可能）
生成された動画に対して「背景を夕暮れに」など修正指示をチャットで重ねる

生成には数十秒から数分かかり、完成した動画はダウンロードや共有ができます。

Gemini API・Google AI Studioでの利用（2026年6月30日開始）

2026年6月30日（現地時間）から、Google AI StudioとGemini APIを通じたパブリックプレビュー提供が始まりました。モデル名は「gemini-omni-flash-preview」です。会話型編集はInteractions APIを通じて実装されており、変更したい内容を伝えると、保持したい部分を維持したまま編集が適用されます。

API利用時の料金は動画出力1秒あたり0.10ドルと案内されており、これはVeo 3.1 Fastと同水準です。10秒の動画を1本生成すると約1ドル（執筆時点の概算で、1ドル150円換算なら約150円）が目安になります。ただしプレビュー段階のため、価格や仕様は正式版までに変わる可能性があります。

Veoや他の動画生成AIとの違い

導入を検討するうえで判断材料になるのが、既存の動画生成AIとの違いです。

Veo 3.1との使い分け

GeminiアプリではVeo 3.1に置き換わる形でGemini Omni Flashが展開されています。一方で、Veo 3.1のAPIドキュメントは引き続き整備されており、開発者にとってVeoは有効な選択肢のままです。品質重視の単発生成にはVeo 3.1、会話形式の反復編集やマルチモーダル入力を生かした制作にはGemini Omni Flashが向いている、という整理が現時点では妥当でしょう。

SoraやRunwayなど他社モデルとの違い

OpenAIのSoraやRunwayのGenシリーズなど、従来の動画生成AIは「テキストから動画への一方向生成」が基本でした。生成結果が意図と違えば、プロンプトを書き直してゼロから生成し直す必要があります。Gemini Omni Flashは生成後の映像を会話で修正し続けられる点で、設計思想そのものが別物です。細部の調整に時間を取られてきたワークフローを変えられるかどうかが、比較検討の軸になります。なお、ゼロからの生成品質そのものは用途やプロンプト次第で他社モデルに軍配が上がるという利用者の評価もあり、一律にどちらが優れているとは断定できません。

プレビュー段階の機能制約

APIドキュメントでは、プレビュー段階の制約が明示されています。実務に組み込む前に、次の点を確認しておきましょう。

生成できる動画は最大10秒で、動画の延長（拡張）やフレーム間の補間には非対応
生成済み動画内の音声を編集・変更する機能は提供されていない
システム指示やtemperatureなどのパラメータ指定には非対応
完全にサポートされる言語は英語のみで、日本語を含む他言語は動作するものの結果が安定しない場合がある
複数の動画をまたいだ参照や、YouTube動画をソースとして使う方法は対象外

とくに日本語のナレーションやテロップを含む動画では、読み上げ精度が英語より低いという利用者の報告があります。日本語圏の業務利用では、音声は別途用意する、テロップは短く保つといった回避策もあわせて検討すると安全です。

企業導入の判断基準

ここまでの情報を踏まえると、導入判断は「どの業務のどの工程に入れるか」を軸に考えるのが現実的です。

まず効果が見込みやすいのは、SNS向け短尺動画・広告クリエイティブの試作・企画段階のイメージ共有といった、10秒以内で完結し反復修正が多い工程です。撮影・編集・素材調整に分かれていた作業を、プロンプトと素材指定を中心に進められる可能性があります。逆に、長尺コンテンツや日本語音声が主体の動画制作では、現時点の制約がボトルネックになりやすいため、正式版のアップデートを待つ判断も合理的です。

また、AI生成動画を社外に公開する場合は、SynthIDやC2PAによる識別を前提としたガバナンス設計が必要です。生成プロセスをどこまで制御・監査・再現できるかは、業務システムに組み込む際の評価項目になります。APIがパブリックプレビューに入ったことで検証は始めやすくなっており、Gemini本体の最新動向とあわせて追うなら、推論能力を大きく高めたGemini 3.1 Pro Previewの全体像と主要仕様も参考になります。小規模なPoCで自社ワークフローとの相性を確かめ、正式版のリリースにあわせて本格導入を判断する進め方が、失敗の少ない道筋です。

よくある質問

Gemini Omni Flashは無料で使えますか？

GeminiアプリとGoogle Flowでの利用にはGoogle AI Plus・Pro・Ultraいずれかの有料プランへの加入が必要です。一方、YouTube ShortsとYouTube Createアプリでは無料での順次提供が発表されています。提供時期や機能はアカウントや地域によって異なるため、自分の環境で使えるかは実際の画面で確認してください。

VeoはGemini Omni Flashに置き換えられて終了するのですか？

GeminiアプリではOmni Flashへの置き換えが進んでいますが、Veo 3.1は開発者向けのAPIとして引き続き提供されています。品質重視の単発生成にはVeo、会話型の反復編集にはOmni Flashという使い分けが現時点の整理です。

APIの料金はいくらですか？

2026年6月30日に開始されたパブリックプレビューでは、動画出力1秒あたり0.10ドルと案内されています。10秒の動画1本で約1ドルが目安です。プレビュー段階のため、正式版で価格が変わる可能性があります。

日本語のプロンプトは使えますか？

Geminiアプリでは日本語での指示に対応しています。ただしAPIドキュメント上で完全サポートと明記されているのは英語のみで、日本語音声の読み上げ精度は英語より低いという利用者の報告もあります。日本語主体の動画では出力品質を必ず確認してください。

生成した動画がAI製だと見分けられますか？

はい。Gemini Omniで生成されたすべての動画にはSynthIDの電子透かしが埋め込まれ、C2PA Content Credentialsにも対応しています。GeminiアプリやGoogle検索を通じて、AI生成かどうかを確認できます。

資料請求