AI

DreamOmni 2とは?テキストと画像を使った指示に対応する次世代画像生成AIモデルについて解説

目次

DreamOmni 2とは?テキストと画像を使った指示に対応する次世代画像生成AIモデルについて解説

DreamOmni 2(ドリームオムニ2)は、最新のマルチモーダル画像生成・編集AIモデルです。香港中文大学や香港科技大学、ByteDance(バイトダンス)の研究チームによって開発され、画像生成AIの常識を変える画期的な技術として注目を集めています。従来の画像生成AIはテキストプロンプト(指示文)のみに依存しがちで、「質感をざらざらにしたい」「特定の芸術的スタイルを再現したい」といった細かなニュアンスの指示が言葉だけでは難しく、思い通りの結果を得るまで試行錯誤を繰り返すことも少なくありませんでした。DreamOmni 2はこの課題に対応すべく登場したモデルで、テキストと画像の両方を指示に用いることが可能「マルチモーダル指示」を特徴としています。ユーザーは文章による指示に加えてお手本となる画像を提示できるため、「この写真の雰囲気を別の画像にも再現したい」「このキャラクターのポーズ違いの画像が欲しい」といった要求に対し、より直感的で具体的なオーダーが可能になります。その結果、DreamOmni 2は従来モデルでは難しかった抽象的な質感や芸術的スタイルの再現、特定人物の一貫した生成などを高い精度で実現することに成功しています。

香港中文大学・ByteDanceによる最新AIモデルの概要

DreamOmni 2は研究論文として2025年10月に公開された最新モデルであり、画像の「編集」と「生成」をシームレスに統合した汎用的な視覚AIシステムです。このモデルはApache-2.0ライセンスでオープンソース公開されており、誰でも利用・改良可能な点も特徴です。従来の「指示に基づく画像編集(instruction-based image editing)」が言語指示のみでは詳細な編集内容を伝えきれず参照画像に頼らざるを得なかったこと、また「被写体駆動型の画像生成(subject-driven generation)」が特定の人物やオブジェクトに限定され抽象的な概念を扱えなかったこと—こうした課題に対処するためにDreamOmni 2は生み出されました。テキストと画像の両方を指示に取り入れ、具体的な物体から抽象的な質感・スタイルまで幅広く対応できることで、実用上の応用範囲を飛躍的に拡張しているのです。

DreamOmni 2の基本概要: 編集・生成を統合したマルチモーダルAIモデルの特徴と利点を詳しく解説

DreamOmni 2は、単一のフレームワークで画像の生成(ゼロから新たな画像を創出)と編集(既存画像の一部を改変)という二つのタスクを統合的に扱える点が大きな特徴です。ユーザーはテキスト指示と画像指示を組み合わせることで、具体的な対象(人物・オブジェクト)から抽象的な質感・スタイルまで自由に指定でき、モデルはそれに応じた画像編集・生成を行います。例えば「写真Aの人物に写真Bの服装を着せ、背景を写真Cの風景に置き換える」といった複雑な指示も、一度に与えて実行することが可能です。これは複数の参照画像を入力として処理できる高度な設計によって実現されています。

技術的には、DreamOmni 2はデータ構築とモデル設計という2つの課題に重点的に取り組んで開発されました。まずデータ面では、テキスト+画像指示に対応した学習用データを効率的に生成するためのデータ合成パイプラインが提案されています。具体的には、抽象的概念(質感や雰囲気など)と具体的概念(特定の人物や物体)の両方を含むペア画像データを合成する仕組みを導入し、モデルが多様な指示内容に対応できるよう膨大な学習データを用意しています。

モデルのアーキテクチャ面では、複数の画像入力を扱う際に情報が混ざってしまわないよう「インデックス符号化」と「位置エンコーディングのシフト方式」という新技術が導入されました。これにより入力された各画像の特徴に識別用の符号を与え、モデルがそれぞれを明確に区別して処理できるようになっています。この工夫のおかげで、例えば2枚以上の参照画像を用いた場合でも、どの要素がどの画像に由来するかをモデルが混同せずに理解できます。また視覚と言語の統合モデル(VLM: Vision-Language Model)とDreamOmni 2の生成・編集モデルを共同で訓練するアプローチも取られており、複雑な指示文の解釈精度を高めています。

こうしたデータとモデル両面の工夫により、DreamOmni 2は非常に高い性能を達成しています。研究チームによるベンチマーク実験では、従来のオープンソースモデルを大きく上回る成果を示し、商用モデルに比肩しうるクオリティを実現したと報告されています。特に被写体駆動型の画像生成(与えられた人物の新規画像生成)では同一人物のアイデンティティとポーズの一貫性に優れた結果を出し、抽象的なスタイルの再現性においては一部の商用モデルを凌駕するほどだといいます。また、画像編集タスクでも参照画像を用いた高度な編集が可能で、その精度は最新商用モデルにも匹敵するレベルに達しています。生成と編集の両タスクを単一モデルでこなせるオープンソースの公開モデルとして、DreamOmni 2は極めて強力かつ汎用性の高い存在と言えるでしょう。

新機能・アップデート内容: DreamOmni 2で実現された4つの主要な改良点と機能を詳細に解説する

DreamOmni 2には、前バージョンや従来モデルから飛躍的に進化した4つの革新的な新機能があります。これらの機能により、ユーザーはより直感的かつ柔軟に画像生成・編集を行えるようになりました。以下に各新機能の概要を紹介します。

テキスト+画像のマルチモーダル指示機能の導入

最も根幹となるアップデートが、テキストと画像を組み合わせて指示できるようになった点です。従来はテキスト(文章)だけでプロンプトを作成していましたが、DreamOmni 2ではこれに加えて参考となる画像を入力として与えることができます。例えば「この写真の人物をベースに、新しいポーズで別の背景に立たせて」といった場合、文章では「若い女性が街中に立っている」と記述しつつ、参照画像としてその女性の写真や希望する背景の写真を添えるイメージです。モデルは言語による指示から意図を汲み取りつつ、画像から具体的な視覚的特徴を学習するため、ユーザーの頭の中にあるイメージをより正確に反映した結果を生成できます。このマルチモーダル指示により、言葉では表現しにくい質感や雰囲気、具体的なデザイン要素も直感的に指定可能となりました。

さらに、この機能は単なる画像生成だけでなく編集タスクにも活用されています。たとえば「写真Aの風景に写真Bのオブジェクトを合成する」といった編集では、ベースとなる写真Aを入力画像、追加したい要素が写った写真Bを参照画像として与え、テキストで「Aの画像にBのオブジェクトを追加して配置せよ」と指示します。DreamOmni 2はこのような複合指示にも対応でき、編集すべき部分と維持すべき部分を適切に判断して処理を行います。テキスト+画像の両モーダルを用いる柔軟な指示は、本モデルの根幹をなす強力な機能と言えるでしょう。

1枚の画像から同一キャラクターを多様なシーンで生成

二つ目の新機能は、少ない画像から特定の被写体(キャラクター)を学習し、多様なシーンでその被写体を再現できる点です。従来、特定の人物やキャラクターを様々なポーズや背景で生成するには、その人物の複数枚の画像を用意してモデルを再学習(ファインチューニング)する必要がありました。しかしDreamOmni 2ではたった1枚の画像を参照として与えるだけで、モデルがその人物の固有の特徴(顔立ちや体型など)はもちろん、姿勢・髪型・服装といった抽象度の高い属性まで理解し、全く異なるシチュエーションの中でも一貫性を保って新たな画像を生成できるのです。GitHub上の報告によれば、この機能により「優れた人物識別およびポーズの一貫性」が実現され、シーンをまたいだキャラクターの連続性という従来困難だった課題に対する強力な解決策となっています。

例えば、1枚の人物写真を参照画像に指定し、「砂漠の中でポーズを変えて立つその人物を生成して」とテキスト指示を出すと、砂漠を背景にしながらも参照画像と同一人物だと分かる新規画像を作り出せます。他のモデルでは出力ごとに顔が別人になってしまったり、細部が一致しなかったりするケースでも、DreamOmni 2は人物のアイデンティティをしっかり維持しつつ自由なバリエーションを生み出せる点で優れています。

複数の参照画像を組み合わせる高度な画像編集

三つ目の新機能は、複数の参照画像を同時に活用して行う「魔法のような」画像編集です。通常、異なる画像から得た情報を同時に扱うと、それぞれの内容が混ざり合ってモデルが混乱してしまう問題がありました。しかしDreamOmni 2では前述したインデックス符号化などの手法により、複数画像からの情報をしっかりと区別して取り込むことに成功しています。

その結果、一度の指示で非常に複雑な編集を実現できるようになりました。例えば、「1枚目の画像の人物を2枚目の画像の人物に置き換え、さらに3枚目の画像の照明を適用する」といった、一見すると魔法のような操作も可能です。実際に、この機能を使えば「写真Aの人物を写真Bの人物に差し替え、全体のアートスタイルを写真Cのようにする」といった高度な編集がワンステップで実行できます。複数の画像の特徴を統合しつつ不要な混同は起こさないため、出来上がった画像は各参照画像から意図した要素だけを取り出して合成したような、自然で高品質なものになります。

美的スタイル転送による高度な画風の適用

四つ目の新機能は、「美的スタイル転送」と呼ばれる高度なスタイル変換機能です。これは単に画像の色合いを別の画像に合わせるといった従来のスタイル転換に留まりません。DreamOmni 2は参照となる画像が持つ「質感」「素材感」「メイクアップ」「芸術的なスタイル」といった抽象的で複雑な属性まで丸ごと抽出し、ターゲットの画像に精密に適用することができます。たとえば一枚の写真に対し、別の絵画の持つ独特なタッチや筆致、雰囲気をそのまま“被せる”ように変換するといったことが可能です。

驚くべきは、そうしたスタイル変換を行っても、元の画像の構図や被写体の形状などの基本要素はしっかりと保持される点です。つまり、写真の中身(人物や物体の配置)はそのままに、表面的な画風だけを別の作品風に染め上げることができます。これにより、プロのアーティストが描いたようなタッチを自分の写真に適用したり、特定のブランドのビジュアルスタイルを他の画像に統一したりといった応用が容易になりました。実際、この美的スタイル転送機能はビジュアルストーリーテリングやブランディングの分野で、一貫した世界観を持つコンテンツを効率的に制作する強力な武器になると期待されています。創造性を大いに刺激するDreamOmni 2ならではのユニークな機能と言えるでしょう。

マルチモーダル指示編集(Multimodal Instruction Editing)とは何か?テキストと画像を併用する指示手法の特徴と利点

マルチモーダル指示編集とは、文字通り「複数のモード(様式)の指示に基づく編集」という意味で、DreamOmni 2の核となるコンセプトです。従来の画像編集AIではテキストによる指示だけで画像に変化を加えていました。しかし、これでは細部のニュアンスまで伝えるのが難しく、結局ユーザーが頭に描くイメージと結果画像のギャップを埋めるために何度もプロンプトを試行錯誤する必要がありました。また、文章で詳細を指定しきれない場合には人間がレタッチするか、参考画像を手動で用意してモデルに見せるといった作業が不可欠でした。

マルチモーダル指示編集では、このような課題を解決すべく「テキスト(言語)」と「画像(視覚)」を組み合わせて命令を出すことができます。テキストは編集や生成の大まかな方向性を示し、画像は色味・質感・形状など具体的な例示を与える役割です。例えば「アンティーク調の部屋に合う椅子を生成したい」という場合、単に「古風な椅子を生成してほしい」と文章で伝えるだけでは曖昧さが残りますが、参考として理想に近いデザインの椅子の写真を添えれば、モデルはその写真から材質感や彫刻の雰囲気を学び取って結果に反映できます。これによりユーザーは微妙なニュアンスまで含めた具体的なイメージを直接モデルに教えることが可能になりました。

この手法の利点は、言語では表現しづらい視覚的特徴を直感的に指定できる点にあります。特に質感やスタイルといった抽象概念は、人によって受け取り方が異なる曖昧なものですが、画像例を示せば一目瞭然です。また、テキスト指示と画像指示を組み合わせることで、「具体」と「抽象」の双方をカバーする柔軟な命令が可能になります。DreamOmni 2はこのマルチモーダル指示編集を取り入れることで、単なる文字情報だけでは扱えなかった領域まで踏み込み、ユーザーの意図をより深く正確に汲み取れるようになっているのです。

さらに、DreamOmni 2ではマルチモーダル指示を画像の編集タスクと生成タスクの両方に応用しています。従来、画像編集(既存画像の加工)と新規生成は別個の問題として扱われ、モデルも分かれていることが多くありました。しかし本モデルでは「編集したい画像」と「参照用画像」を同時に入力し、編集内容をテキストで指定することで、元画像の必要な部分だけ差し替えるといった高度な編集も行えます。また、新規画像生成の場合でも、生成したい対象に関する参考画像を与えておけば、その特徴を受け継いだ全く新しい画像を生み出すことができます。このように、マルチモーダル指示編集は画像編集・生成の垣根を越えて活用されており、DreamOmni 2を支える最重要技術となっています。

美的スタイル転送の仕組み: 画像の雰囲気・質感・スタイルを別画像に丸ごと適用できる革新的な技術を解説

美的スタイル転送とは、ある画像が持つ美的なスタイル(雰囲気や質感、色彩、画風など)を抽出し、他の画像に適用する技術です。従来から画像のスタイル変換(スタイルトランスファー)という技術は存在しましたが、多くは色調やコントラストなど表面的な特徴をマッチさせる程度で、元の画像の細部を維持しつつ高レベルな画風まで移し替えることは容易ではありませんでした。DreamOmni 2の美的スタイル転送機能はこの点で極めて強力です。

まず、モデルは参照となる画像から「質感」「素材感」「メイクアップ」「芸術的スタイル」といった複数の要素をまとめて抽出できます。たとえば油絵風の絵画であれば筆のタッチ感やキャンバスの質感、色使いのバランスなど、写真にはない要素が数多く含まれていますが、DreamOmni 2はそうした抽象度の高い特徴まで捉えることが可能です。次に、抽出したスタイル情報をターゲットの画像(変換先の画像)に適用しますが、この際に元画像の構造はそのまま維持されます。つまり、変換先画像に写っている被写体や構図は変えずに、表面上のテクスチャや色彩雰囲気だけを参照画像風に変えるのです。

例えば、ある人物写真に対してゴッホの絵画のスタイルを適用するとしましょう。通常であれば人物の顔つきや背景の形状も絵画風に歪んでしまいがちですが、DreamOmni 2では人物の輪郭や背景の配置自体は写真そのままに、筆触や色彩だけがゴッホ風に変換されたような結果が得られます。これは、元画像の各ピクセルが持つ意味的な役割を保ちながらスタイルだけを上書きする高度な制御を可能にしているためです。

この美的スタイル転送の仕組みにより、クリエイターは表現の幅を格段に広げることができます。写真をまるで別の画家が描いたアートのように変換したり、複数の画像を同じ統一感あるトーンに揃えたりといった応用が容易です。特にブランドデザインや映像制作の分野では、一貫した世界観を保ちつつ様々な素材を用いることが求められるため、この機能が強力なツールとなるでしょう。DreamOmni 2の美的スタイル転送は、単なる色合い調整ではない「丸ごとスタイルを載せ替える」革新的技術として、今後多方面で活用が期待されています。

DreamOmni 2の使い方・操作手順: モデルの実行方法や画像生成・編集の具体的手順を詳しく解説する

ここではエンジニア向けに、DreamOmni 2を実際に使ってみる手順を説明します。モデルはオープンソースで公開されているため、必要な環境を整えれば誰でもローカルで実行可能です。基本的な流れは「コードとモデルの入手」「編集・生成タスクの実行」「結果の保存確認」というステップになります。

コードとモデルの入手・準備

まず、DreamOmni 2の公式リポジトリ(GitHub上の dvlab-research/DreamOmni2)からコードを取得します。ターミナルで次のコマンドを実行してリポジトリをクローンし、必要なPythonライブラリをインストールします:

git clone https://github.com/dvlab-research/DreamOmni2
cd DreamOmni2
pip install -r requirements.txt

次に、学習済みモデルの重みデータを入手しましょう。モデルの重みはHugging Face上で公開されており、公式ドキュメントではhuggingface-cliコマンドを使ってダウンロードする方法が案内されています。例えば以下のように実行することで、モデルファイルが./modelsフォルダに保存されます:

huggingface-cli download --resume-download --local-dir-use-symlinks False xiabs/DreamOmni2 --local-dir ./models

この手順により、DreamOmni 2を動かすためのコード一式とモデルデータが手元に揃います。実行には高性能なGPUを搭載したPCが望ましく、画像サイズによりますが少なくとも10GB以上のGPUメモリが推奨されます(高解像度画像や複数画像入力の場合は16GB以上あると安心です)。環境としてはPython 3系とPyTorch、CUDA対応GPUドライバなどが必要です。

画像編集(既存画像の指示編集)モードの実行手順

DreamOmni 2には大きく分けて「画像編集モード」と「画像生成モード」の2種類の使い方があります。まずは、既存の画像に対して編集を行うモードの手順です。

画像編集を行うには、編集したい元画像と、参考にする画像(参照画像)、そして編集内容を記述したテキスト指示を用意します。公式リポジトリにはこれらを指定して編集を実行するスクリプトinference_edit.pyが用意されており、以下のようにコマンドラインから実行できます:

python3 inference_edit.py --input_img_path "example_input/edit_tests/src.jpg" "example_input/edit_tests/ref.jpg" --input_instruction "Make the woman from the second image stand on the road in the first image." --output_path "edit_result.png"

上記の例では、src.jpg(1枚目の画像)に写っている女性を、ref.jpg(2枚目の画像)に写っている女性と置き換え、背景は1枚目の画像の道路を使う、という指示を英語で与えています。実行すると、指定したoutput_path(ここではedit_result.png)に編集後の画像が保存されます。ポイントは、編集モードでは入力画像群の最初の画像が「編集対象」として扱われることです。2番目以降の画像が参照用の素材として使われ、テキスト指示に従って1番目の画像に変更が加えられる仕組みです。

この編集モードにより、ユーザーは手持ちの写真から不要な要素を別のものに差し替えたり、他の画像のスタイルを適用して雰囲気を変えたりといった加工を簡単に実現できます。例えば「家族写真から背景の人物だけ消して別風景に差し替える」「商品画像に別の質感を適用してバリエーションを作る」などのケースで非常に有用です。

画像生成(新規画像の生成)モードの実行手順

次に、新しい画像を生成するモードの使い方です。この場合、参照用の画像として1枚以上を入力に使う点が特徴です。生成モードを実行するスクリプトinference_gen.pyを用いて、例えば2枚の参照画像から新たなシーンを作り出すことができます。

公式の例コマンドを紹介します:

python3 inference_gen.py --input_img_path "example_input/gen_tests/img1.jpg" "example_input/gen_tests/img2.jpg" --input_instruction "In the scene, the character from the first image stands on the left, and the character from the second image stands on the right. They are shaking hands against the backdrop of a spaceship interior." --output_path "gen_result.png" --height 1024 --width 1024

この例では、img1.jpgimg2.jpgの2枚の画像に写ったキャラクターを、それぞれ新たなシーンの左側・右側に立たせ、背景に宇宙船の内部を生成するよう指示しています。DreamOmni 2はテキスト指示に従い、1枚目の画像の人物と2枚目の画像の人物が宇宙船内部のシーンで握手しているような新規画像を作り出します。参照画像の人物の容姿や雰囲気を保ったまま、全体として一貫した合成画像が生成される点に注目してください。オプションで出力画像の高さと幅(ピクセル)も指定でき、高解像度の画像(上の例では1024×1024)を得ることも可能です。

生成モードでは、複数の参照画像を使うことで前述の「魔法のような編集」のような複合生成も行えますし、参照画像を1枚だけにすれば「その画像の特徴を受け継いだ別シーンの生成」という一貫性ある新規画像生成を行うこともできます。用途に応じて柔軟に使い分けられるでしょう。

テキスト指示と参照画像指定時のポイント

DreamOmni 2を使用する上で、テキスト指示文(プロンプト)と参照画像の指定にはいくつかコツがあります。テキスト指示はできるだけ明確かつ簡潔に、望む構図や雰囲気を伝える文章を心がけます。特に複数の参照画像を使う場合、「画像1の○○を画像2の△△に置き換える」等、どの画像の何をどうしたいのかを文中で示すとモデルが理解しやすくなります。また指示文の言語は英語がデフォルト推奨ですが、日本語でも性能は発揮できるようです。

参照画像は、編集したい内容や適用したいスタイルに直接関係するものを選びます。例えばスタイル転送の場合、雰囲気を適用したいアート作品や写真をそのまま参照に使うと効果的です。人物の一貫生成では対象人物がはっきり写った画像を与えるのが望ましいでしょう。なお、DreamOmni 2は参照画像の解像度や画質にもある程度影響を受けます。極端に低解像度だと細部を学習しきれない場合がありますので、可能な範囲で鮮明な画像を使うことが好ましいです。

生成結果の保存と確認方法

各モードで生成・編集が完了すると、指定したoutput_pathに結果画像が保存されます。実行後はその画像ファイルを開いて、望み通りの編集・生成が行われているか確認しましょう。DreamOmni 2は一度の指示でかなり複雑な処理を行えますが、結果がユーザーの意図と完全に合致しない場合もあります。その際はテキスト指示を調整したり、参照画像を変えて再度実行することで、より理想に近い結果を得ることができます。

また、環境構築が難しい場合や手元に十分なGPUがない場合でも、DreamOmni 2を試す手段があります。公式が公開しているデモ用のWebインターフェースを利用する方法です。研究チームはHugging Face上にデモページを用意しており、ブラウザから参照画像やテキスト指示を入力するだけでモデルを動かせます。さらにGitHub上のスクリプトweb_edit.pyおよびweb_generate.pyを使えば、ローカルマシンでGradioベースの簡易Webアプリを起動することも可能です。こちらを使うと、ブラウザ上で画像をアップロードしたりテキストを入力したりしながら対話的にDreamOmni 2を操作できます。

実際の生成例と精度検証: DreamOmni 2で生成された画像例と出力品質の検証結果と評価について

ここではDreamOmni 2が実際にどのような結果を出力するのか、具体的な例とその精度について見てみましょう。様々な機能の実力が分かるデモンストレーションを交えつつ、他モデルとの比較評価も紹介します。

1枚の写真から多彩な同一人物画像を生成した例

まずは「1枚の画像から同じキャラクターを自由自在に生成」する機能の実例です。例えば、ある人物が写った写真を1枚入力し、「その人物が異なるポーズで公園に立っている画像を作って」と指示すると、DreamOmni 2はその人物の顔や体型を保ったまま背景を公園に変え、ポーズを指定通りに変えた新しい画像を生成してくれます。実際の出力結果を見ると、参照に使った元写真と見比べても同一人物だと分かる高い再現性があります。服装や髪型なども元写真の情報を活かしており、不自然な崩れがほとんどありません。

このような一貫生成が可能になったのは前述のとおり、DreamOmni 2が1枚の画像から人物固有の特徴と抽象的な属性(ポーズ等)を学習できるためです。従来モデルでは、一度生成した画像の人物を次の画像でも再登場させるにはうまくいかない場合が多々ありました。同じ名前(キャラクター名など)をプロンプトに入れても別人になってしまう、背景を変えると顔が変わってしまう等です。しかしDreamOmni 2ではクロスシーンでの人物の一貫性が維持できており、「ストーリー中で同じ登場人物が場面を変えて登場する」といったビジュアルシナリオの制作にも威力を発揮します。

複数参照画像を使った魔法のような編集結果

次に、複数の参照画像を組み合わせる高度編集の例です。例えば参照画像として「夜空の星空」と「海辺の夕日」を用意し、元画像として「青空の下に建つ建物」の写真を入力したとしましょう。そして指示文に「建物の背景を夜空の星空に変更し、照明を夕日の雰囲気に変えてください」と与えると、DreamOmni 2は建物自体の形状や質感はそのままに、背景空を満点の星空に置き換え、建物全体に夕焼けのような暖色の照明効果を与えた画像を生成します。

この結果画像は、一見すると高度なフォトレタッチを施したようですが、DreamOmni 2はワンステップで実現しています。複数の参照画像の特徴を正確に抽出し、それぞれ適切な箇所に適用できているため、違和感のない自然な合成が可能なのです。実際の研究デモでも、「1枚目の画像を差し替え、2枚目の画像と同じスタイルにする」といったプロンプトが紹介されており、非常に複雑な編集も指示一つでこなせることが示されています。このような機能は他の一般的な画像生成モデルには見られないDreamOmni 2ならではの強みです。

美的スタイル転送による画風変換の効果検証

美的スタイル転送機能の効果も検証されています。一例として、あるポートレート写真に別の絵画のスタイルを転送する実験結果では、写真の人物の輪郭や表情はそのままに、全体があたかも油絵で描かれたような筆致と色彩に変換されました。元写真の持つ情報(誰が写っているか、表情はどうか)は維持されつつ、色使いや質感は参照した絵画の特徴そのものになっており、非常に興味深い画像が得られています。

また別の例では、風景写真に特定の画家の画風を転送すると、空や雲の描かれ方、植物のタッチなど細部までその画家特有のスタイルで再現されました。それでも地平線の位置や建物の形状など写真本来の構図は崩れておらず、まさに「写真の中身はそのままに着せ替えだけ行った」かのような結果です。これらの検証から、DreamOmni 2のスタイル転送が単なるフィルタ効果ではなく、深いレベルで特徴を捉えて変換していることが確認できます。

従来のニューラルスタイル転送ではここまで多彩な属性を一括で扱うことは難しく、色調を似せると形状も歪んでしまうといった限界がありました。しかしDreamOmni 2は抽象的な美的特徴を高精度にコントロールできるため、クリエイターにとって強力な表現手段となるでしょう。

ベンチマーク評価に見るDreamOmni 2の性能

DreamOmni 2の性能は定量的にも評価されています。研究チームはマルチモーダル指示編集・生成のための包括的なベンチマークデータセット「DreamOmni2Bench」を構築し、様々なタスクで既存モデルとの比較実験を行いました。その結果、DreamOmni 2はほとんどの指標において既存オープンソースモデルを上回るスコアを記録しています。特に、参照画像を用いた編集タスクの精度や、1枚の画像からの新規生成でのFID(画像多様性指標)などで顕著な向上が見られました。

また、研究者たちはDreamOmni 2の生成結果を人間の評価でも確認しています。被験者に複数モデルの出力を見比べてもらい、指示との整合性や視覚的リアリティを評価したところ、DreamOmni 2の出力は高く評価される傾向がありました。これは主観評価においても本モデルが優れた品質を示していることを意味します。

総合すると、DreamOmni 2は現時点で世界トップクラスの画像生成・編集能力を持つモデルだと言えます。オープンソースでこれだけの性能を達成している点は特筆すべきであり、今後さらなる改良や派生モデルも期待されます。

出力精度に関する長所と今後の課題

DreamOmni 2の長所としてまず挙げられるのは、出力結果の一貫性と忠実性です。前述の通り、人物のID統一やスタイル適用の精度において他モデルを凌駕する部分が見られます。また複雑な指示にも柔軟に対応できる汎用性も大きな強みです。一方で課題が残るとすれば、計算資源の必要量や実行速度といった現実的な制約でしょう。高解像度画像を生成する場合、1回の推論に数十秒以上かかることもあります。また多様なタスクに対応する分、モデル自体のサイズも大きく、一般ユーザーが扱うにはハードルが高い面もあります。

しかしこれらの点はハードウェアの進歩やモデルの最適化によって改善が進むでしょう。実際、研究チームは今後さらに軽量化したバージョンの開発や、動画生成への応用なども視野に入れていると示唆しています(現状DreamOmni 2は静止画専用モデルですが、そのマルチモーダル指示の概念は動画にも応用可能です)。総じて、DreamOmni 2は現時点で非常に完成度の高いモデルでありつつ、今後の展開にも大きな可能性を秘めていると言えます。

競合モデル(Dream Machine/Runwayなど)との比較: マルチモーダル対応や生成精度におけるDreamOmni 2の優位性

最後に、DreamOmni 2と競合する他の生成AIモデルとの比較について考察します。ここでは特に名前が挙がっているLuma AI社のDream MachineやRunway社の生成モデル(例えばRunway Genシリーズ)などと比較しつつ、DreamOmni 2の位置付けを見てみます。

Luma Labs Dream Machineとの比較(マルチモーダル対応)

Dream MachineはLuma Labsが提供する生成AIで、主にテキストと画像を入力として動画を生成できるプラットフォームとして知られています。一方、DreamOmni 2は静止画の生成・編集に特化したモデルです。両者はマルチモーダル入力という点では共通していますが、対象とするメディア(動画 vs 静止画)や用途に違いがあります。

DreamOmni 2の強みは、静止画にフォーカスしている分、画像単体の品質や編集の細かさで優れた結果を出せることです。実際、DreamOmni 2はオープンソースの画像生成モデルとしては最高水準の精度を誇り、抽象的なスタイル適用能力では商用モデルすら凌ぐとされています。一方のDream Machineは動画生成という難易度の高いタスクをこなすため、1フレームごとの静止画品質では専用モデルに及ばない部分もあるでしょう。しかし、動画文脈での一貫性(連続フレーム間のつながり)に注力している点が特徴です。

要するに、用途に応じた得意分野の違いがあります。静止画を用いたクリエイティブな編集・生成であればDreamOmni 2が非常に強力で、多彩な効果を一枚絵に凝縮できます。対して、動画やアニメーションの生成ならDream Machineといった映像特化モデルが選択肢に入ります。ただしDreamOmni 2で培われたマルチモーダル指示の技術は、将来的に動画生成モデルにも応用される可能性があり、そうなれば競合領域も広がっていくでしょう。

Runwayの生成モデルとの比較(機能と精度)

Runway MLはクリエイター向けのAIツール群を提供しており、その中でGen-1Gen-2といった生成モデルが注目されています。Runwayのモデルもまた、テキスト指示や画像プロンプトから動画や画像を生成できる点が特徴です。特にGen-2は短い動画クリップをテキストで生成する機能で話題になりました。

DreamOmni 2とRunwayの画像生成機能を比較すると、まずオープンソース vs クローズドソースという大きな違いがあります。DreamOmni 2は誰でも無料で利用・改良できますが、Runwayのモデルは商用サービスとして提供されており、その内部仕様は非公開です。このため、研究開発やカスタム用途にはDreamOmni 2の方が適しています。性能面では、Runwayのモデルは商用サービスとして最適化されており使いやすさや処理速度に定評がありますが、生成の自由度という意味ではDreamOmni 2が勝る部分があります。

例えば、DreamOmni 2はユーザーが自前の画像を使って細かな編集を直接行えるのに対し、Runwayのツールでは用意されたフィルターやオプションを組み合わせる形が中心です。もちろんRunwayも独自の強力な生成AIを持っていますが、DreamOmni 2のように一つのモデルで編集と生成の両方をカバーするものはまだ限定的です。総じて、細部にこだわったカスタムな画像生成・編集プロジェクトにはDreamOmni 2が、手軽さや統合環境での制作にはRunwayが適していると言えるでしょう。

Stable DiffusionやMidjourneyなど他モデルとの違い

画像生成AIの代表格として、オープンソースのStable Diffusionや商用サービスのMidjourneyにも触れておきます。これらのモデルはテキストから高品質な画像を生成することで広く使われていますが、DreamOmni 2とはアプローチが異なります。

Stable Diffusionは拡散モデルをベースとしたテキスト→画像生成AIで、ユーザーコミュニティにより多くの派生モデルや拡張が生まれています。ただし基本はテキスト指示のみで画像を出力するため、特定の人物を出し続けるにはDreamBoothによるモデル再調整が必要だったり、画像2枚を合成するにはControlNetなど追加手法が必要だったりと、DreamOmni 2が一度にこなすことを複数ステップで実現する必要があります。DreamOmni 2は一度のプロンプトで多要素を扱える点で、これら既存モデルとは一線を画しています。

Midjourneyも非常に高品質な画像を生成することで知られていますが、基本的にはテキストプロンプトのみを受け付けるクローズドなサービスです。ユーザーが自分の画像を参照として細部をコントロールする、といった用途には設計されていません(※Midjourneyにも画像プロンプト機能はありますがDreamOmni 2ほど自由ではありません)。そのため、ユーザー自身の素材を生かした生成や細かなエディットを行いたい場合、DreamOmni 2の方が適した選択となるでしょう。

DreamOmni 2が競合モデルより優れている点

以上を踏まえ、DreamOmni 2が競合に対して持つ優位性をまとめます。第一に、マルチモーダル指示対応の統合モデルである点です。テキストと画像の併用という革新的なインタラクションを、オープンソースで誰もが利用できる形で提供しているモデルは他になかなかありません。第二に、編集と生成の両タスクを高水準で両立している点です。これにより、一つのツールで画像制作ワークフローの幅広い場面をカバーできます。第三に、性能そのものの高さです。学術的なベンチマークでも高評価を得ており、特に人物の一貫性保持やスタイル変換の質で抜きん出ています。

もっとも、競合モデルにもそれぞれ強みがあります。例えばMidjourneyのアート的センスやStable Diffusionの拡張性、Dream Machine/Runwayの動画生成などはDreamOmni 2にはない要素です。最終的にはユーザーの目的に応じて使い分けるのが賢明ですが、こと「柔軟な指示で思い通りの画像を作る」というニーズに関しては、DreamOmni 2は現時点でトップクラスのソリューションと言えるでしょう。

導入方法と利用環境: インストール手順と必要なシステム・ハードウェア要件、および実行に必要なGPU環境

最後に、DreamOmni 2を手元の環境で動かすための導入方法と必要環境についてまとめます。前述の「使い方」セクションでは具体的な実行コマンドに触れましたが、ここではシステム面の要件やインストール手順にフォーカスします。

必要なソフトウェア環境(Pythonライブラリなど)

DreamOmni 2を動かすには、Python 3.8+ とPyTorch、CUDA対応のGPUドライバが必要です。PythonについてはAnaconda環境などを用いると依存関係の管理がしやすいでしょう。GitHubから取得したコードを実行する前に、requirements.txtに記載された必要ライブラリをpipでインストールします。主要なライブラリとしてはPyTorchの他、画像処理にPillow、モデルの実装に関連してtransformersdiffusersgradio(Web UI用)などが含まれています。

環境構築の際にはCUDAのバージョン互換にも注意が必要です。PyTorchインストール時に使用するCUDAバージョン(例えば11.7や12.xなど)が、お使いのGPUドライバと適合しているか確認してください。適合しない場合、GPUが正しく利用できず速度が大幅に低下します。

推奨ハードウェア(GPUスペックとメモリ要件)

DreamOmni 2は高性能な生成AIモデルであり、実用的な速度で動かすにはGPU(グラフィックボード)が事実上必須です。CPUのみでも動作は可能かもしれませんが、1枚画像の生成に数十分~数時間かかる可能性があり現実的ではありません。そこでNVIDIAのCUDA対応GPUを用意しましょう。

推奨されるGPUスペックとしては、少なくともVRAM(ビデオメモリ)8GB以上、できれば12GB以上を搭載したモデルが望ましいです。これは画像の解像度や参照画像の枚数によっても変動しますが、例えば1024×1024ピクセルの画像を生成する場合、約10GB前後のメモリを消費するケースがあります。複数の画像を入力に使う場合や編集前後の両方を保持する場合などはさらに必要になります。現在主流のGPUで言えば、GeForce RTX 3080(10GB)やRTX 4080(16GB)クラスであれば快適に動作するでしょう。

また、GPUの演算性能(CUDAコア数など)も処理速度に影響しますが、こちらはメモリほどシビアではありません。もちろんハイエンドGPUほど高速に結果が得られますが、ミドルクラス程度でも実用には足ります。ストレージについては、モデルの重みファイルが数GB程度ありますのでSSD等の十分な空き容量が必要です。

モデルのダウンロードとインストール手順

インストール手順は前述の使い方で説明した通りですが、要点を繰り返します。まずGitからコードを取得し、pip install -r requirements.txtで依存ライブラリをインストールします。次にHugging Faceからモデル重みをダウンロードします。Hugging FaceのアカウントやCLIを使わずにブラウザ経由でモデルファイルを取得してmodelsフォルダに配置することも可能です。

モデル一式を入手したら、あとはコマンドラインから編集用スクリプトまたは生成用スクリプトを実行するだけです。必要に応じて引数で入力画像パス、参照画像パス、指示文、出力パスを指定します。GitHubのREADMEにはいくつかのサンプルコマンドが掲載されているので、それらを試すとよいでしょう。

もしセットアップや実行に問題が発生した場合、GitHubのIssues欄やコミュニティで議論が行われていることがあります。そちらを確認すると類似の質問と回答が見つかるかもしれません。また、DreamOmni 2は活発にメンテナンスされているプロジェクトなので、新しいバージョンや改良がリリースされた際には適宜アップデートすることも忘れないようにしましょう。

デモサイト・クラウド環境での利用

ローカル環境にこだわらず、クラウド上でDreamOmni 2を試す方法もあります。先述のHugging Face上のデモサイトを利用すれば、手元に強力なGPUがなくてもブラウザだけでモデルの一端に触れることができます。またGoogle Colaboratory(Colab)のような無料GPU環境でDreamOmni 2を動かすことも可能です。その場合、このモデルのサイズや計算量を考慮して、ランタイムタイプをGPUに変更し、必要なら高メモリオプションを使うと良いでしょう。

商用利用を検討する場合、DreamOmni 2はApache License 2.0に基づき提供されています。このライセンスは商用利用や改変・再配布も許可する比較的緩やかなものです。ただし、生成した画像に含まれるコンテンツ(著作権やデータセット起因の問題など)については別途注意が必要です。公開デモやサービスに組み込む際は、ユーザーが不適切な使い方をしないようポリシーを設けることも重要でしょう。

導入後の運用とサポート情報

DreamOmni 2を導入した後も、モデルの最適な使いこなしには学習が必要です。GitHubのREADMEや論文の技術報告、さらにはQiita記事やブログレビューなどに目を通し、モデルの挙動やパラメータ調整のコツを掴んでいくと良いでしょう。特に指示文の書き方や参照画像の選び方によって結果が左右されるため、様々なパターンを試して経験値を積むことが大切です。

サポートリソースとしては、GitHubリポジトリで開発者に質問したり、関連するDiscord/Slackコミュニティで情報交換したりする方法があります。オープンソースプロジェクトゆえに公式なサポート窓口はありませんが、その分コミュニティから得られる知見が豊富にあります。

今後のアップデート情報についても注目しましょう。研究チームはDreamOmni 2のコードとモデルを公開するとともに、さらに包括的なベンチマークやタスク設定を提案しています。将来的にはこのモデルを基にした新たなサービスや、改良版のDreamOmni 3(?)の登場も期待できます。導入後も最新情報を追い、モデルの進化を享受できるようにしておくと良いでしょう。

資料請求

RELATED POSTS 関連記事