4万4千時間の人間映像から物理知能を獲得するDreamDojoの基本構造と設計思想

目次

4万4千時間の人間映像から物理知能を獲得するDreamDojoの基本構造と設計思想

DreamDojoは、NVIDIAを中心にUC Berkeley・Stanford・UT Austinなど複数の研究機関が共同で開発した、ロボット向け基盤ワールドモデルです。最大の特徴は、ロボット専用の操作データではなく、人間が一人称視点で撮影した大規模な映像群を事前学習に用いることで、物理世界でのインタラクション知識を効率的に獲得する点にあります。2026年2月に公開された論文では、44,711時間に及ぶエゴセントリック映像データセット「DreamDojo-HV」をもとに学習したワールドモデルが、複数のヒューマノイドロボットで精密な行動制御と未知環境への汎化を実現したと報告されています。

44,711時間のエゴセントリック映像を集約したDreamDojo-HVデータセットの規模と構成内訳

DreamDojoの学習基盤となるDreamDojo-HVデータセットは、総計44,711時間の一人称視点映像を収録しています。この映像群はクラウドソーシングを通じて収集されており、日常生活の多様なシーンを網羅しています。家庭内でのキッチン作業や掃除から、産業環境での組立作業、小売店舗での商品取り扱い、教育現場やオフィスでの操作に至るまで、多岐にわたる状況がカバーされています。

各エピソードにはタスク内容を記述するテキストアノテーションが付与されており、ワールドモデルがどのような操作が行われているかを把握するための手がかりとなります。重要なのは、この映像データにはロボットの行動ラベル(アクションラベル)が付いていないという点です。従来の手法では行動ラベルが必須でしたが、DreamDojoは後述する潜在行動の仕組みにより、ラベルなしの映像からも物理的な知識を学習できる設計を採用しています。

データセットの構築にあたっては、映像の品質管理やスキル分布のバランスにも配慮されています。結果として、家庭環境・産業環境・小売環境・教育環境・行政環境など多様なカテゴリがバランスよく含まれ、ロボットが実世界で遭遇しうるシチュエーションを広くカバーする構成になっています。

従来データセットの15倍の収録時間・96倍のスキル多様性が汎化に与える定量的インパクト

DreamDojo-HVの規模は、既存のワールドモデル学習用データセットと比較して圧倒的な差があります。収録時間は従来最大のデータセットの15倍に相当し、カバーするスキルの種類は約96倍、シーンの多様性は実に2,000倍にのぼります。このスケールの違いが、DreamDojoの汎化性能に直接的な影響を与えています。

機械学習において、モデルの汎化性能はトレーニングデータの多様性と密接に関係します。限られたシーンや特定のロボット操作のみで学習したモデルは、未知の環境に置かれた途端に性能が低下するのが一般的です。照明条件の変化、見慣れない物体の出現、予期しない障害物の配置といった変動要因に対して、データの多様性が高いモデルほど柔軟に対応できます。DreamDojoが44,000時間超の映像を用いる理由は、まさにこの統計的な幅広さによって汎化性能を底上げするためです。

従来のロボット学習用データセットであるDROIDやAgiBotのデータセットと比較しても、DreamDojo-HVはスキルとシーンの両面で桁違いの多様性を持っています。この数値的な優位性は、学術的な新規性だけでなく、実用上のロバスト性を確保するうえでも重要な意味を持つといえます。

人間の物理操作とロボット動作制御で共通する物理法則に基づく知識移転の判断根拠

DreamDojoが人間映像をロボット学習に活用できる根拠は、物理法則の共通性にあります。人間がカップを持ち上げる動作とロボットアームがカップを持ち上げる動作では、見た目の「身体」は異なっていても、重力・摩擦・接触力学といった基礎的な物理法則は同じです。この「エンボディメントギャップ(身体差)があっても物理的な本質は共通する」という前提が、DreamDojoの設計思想の核心にあります。

研究チームはこの前提を活かし、まず人間映像から物理世界の一般的な振る舞い(物体の落下、衝突、変形など)を学習させ、その後に特定のロボット身体に合わせた微調整を行うという2段階のアプローチを採りました。これにより、ロボット専用データの収集量を大幅に削減しながら、物理的に妥当なシミュレーションを実現しています。

この考え方は、自然言語処理における大規模言語モデルの事前学習と領域特化のファインチューニングの関係に類似しています。大量の一般知識を先に獲得し、その後で特定タスクに適応させるという戦略は、データ効率を飛躍的に向上させることが多くの研究で示されてきました。DreamDojoはその方法論をロボットの物理シミュレーション領域に持ち込んだといえます。

潜在行動でラベルなし映像からインタラクション知識を抽出するDreamDojoの設計原理

人間映像をワールドモデルの学習に使ううえで最大の技術的障壁は、行動ラベルの不在です。ロボットのテレオペレーションデータであれば、各フレームに対応するジョイントの角度や速度が記録されていますが、一般的な人間の映像にはそうした情報がありません。DreamDojoはこの問題を「連続潜在行動(Continuous Latent Actions)」という仕組みで解決しています。

潜在行動モデルは、映像の連続するフレーム間から自己教師あり学習によって意味のある行動表現を抽出します。具体的には、あるフレームから次のフレームへの変化を引き起こした「暗黙の行動」をベクトル空間上に埋め込みます。この潜在行動は、人間映像とロボットデータの両方に対して統一的なプロキシ行動として機能するため、異なるデータソース間での知識移転が可能になります。

この設計にはもう1つの利点があります。異なるロボットプラットフォームは関節構成や自由度が異なるため、行動フォーマットの統一には多大なエンジニアリング工数がかかります。潜在行動を採用することで、こうした形式の違いを吸収し、スケーラブルな学習パイプラインを構築できるのです。研究チームはこの手法により、インターネット規模のデータへのスケーリングも理論上は可能だとしています。

Cosmos Predict 2.5を基盤アーキテクチャに採用した技術選定の背景と実装上の利点

DreamDojoのワールドモデルは、NVIDIAが開発したCosmos Predict 2.5を基盤アーキテクチャとして構築されています。Cosmos Predict 2.5は、テキストや条件付きフレーム入力をもとに将来フレームを予測する潜在ビデオ拡散モデルであり、WAN2.2トークナイザーが生成する連続潜在空間上で動作します。

この基盤を選択した背景には、Cosmosプラットフォームが持つ物理AI開発向けの最適化があります。Cosmos WFMは物理的に妥当なインタラクションや物体の永続性を重視して設計されており、工場・倉庫などの産業環境のシミュレーションに適した映像生成能力を備えています。DreamDojoはこの高品質な映像生成能力の上に、行動制御のための追加モジュールを組み込む形で構築されています。

実装面では、Cosmos Predict 2.5の事前学習済み重みを活用することで、DreamDojoの学習効率が向上しています。ゼロから映像生成能力を学習する必要がないため、インタラクション知識と行動制御性の学習にリソースを集中できるのは大きな利点です。また、Cosmosエコシステムとの互換性により、NVIDIAが提供するNeMo CuratorやDGX Cloudなどの周辺ツールとの連携も見据えた設計となっています。

ロボット学習におけるデータ不足と汎化性能の壁をDreamDojoが打破した技術的背景

ロボットに多様なタスクをこなさせるためには、そのタスクに対応した膨大な量の訓練データが必要です。しかし、実世界のロボットデータを大量に収集するのはコストと時間の両面で大きな負担がかかります。この構造的な問題が、汎用ロボットの実現を長年にわたり阻んできました。DreamDojoは人間映像という既存の大規模リソースを活用することで、この課題に対して根本的に異なるアプローチを提示しています。

テレオペレーション依存型データ収集が抱えるコスト・スケーラビリティ面の3つの限界

従来のロボットワールドモデルは、テレオペレーション(遠隔操作)によって収集されたロボット固有のデモンストレーションデータに依存してきました。この方法には少なくとも3つの構造的な限界があります。第一に、テレオペレーションには熟練したオペレーターと高価な機器が必要であり、1時間あたりのデータ取得コストが極めて高くなります。

第二に、テレオペレーションで収集できるシーンの多様性には物理的な制約があります。特定のラボ環境や試験施設内でデータを取得するケースが大半であり、実世界で遭遇するような照明変動や背景の複雑さ、物体の多様性を十分にカバーすることが困難です。第三の限界として、スケーラビリティの問題があります。仮に1,000時間のテレオペレーションデータを集めたとしても、DreamDojo-HVの44,000時間には遠く及びません。

この3つの制約が組み合わさることで、テレオペレーション依存型のアプローチでは「限られた環境でのみ動作する脆いロボット」が生み出されがちです。DreamDojoの研究チームがこの方法論から脱却し、人間映像への移行を決断した背景にはこうした問題意識があります。

既存ワールドモデルが観測済み環境から抜け出せない反事実行動への応答不全の実態

従来のビデオワールドモデルには、もう1つ深刻な問題がありました。学習時に観測した環境やセットアップの再現には成功するものの、反事実的な行動(実際には行わなかった仮想の操作)に対して適切に応答できないという制約です。たとえば、訓練データで「コップを右に動かす」映像しか見ていないモデルは、「コップを左に動かしたらどうなるか」という問いに対して物理的に妥当な映像を生成できないことがあります。

この問題の本質は、データカバレッジの不足にあります。限られた環境・限られた行動パターンのみで学習したモデルは、学習範囲の外にある状況に対する予測能力が乏しくなります。DreamDojoの研究チームは論文中で、この制約が既存のワールドモデルの実用性を大きく損なっていると指摘しています。

実用的なロボットは予測不可能な状況への対応を求められます。工場の製造ラインで部品の向きが通常と異なっていた場合や、物流倉庫で箱の大きさが想定外だった場合など、反事実的な状況判断は日常的に発生するものです。DreamDojoが大規模で多様な映像から物理法則の一般則を学ぶことにより、こうした未経験の状況に対する予測精度が向上したと報告されています。

ロボット固有データなしで物理整合性を学習できたDreamDojo事前学習の定量的実績

DreamDojoの事前学習段階では、ロボット固有のデモンストレーションデータを一切使用していません。44,711時間の人間映像のみを用いて、物体が落下する挙動、接触時の変形、力の伝搬など、物理世界の基本的な法則をモデルに学習させています。論文内の定性的比較では、事前学習なしのモデルと比べて、事前学習済みモデルが未知の物体に対しても物理的にもっともらしい挙動を生成できることが示されています。

特に注目すべきなのは、ポストトレーニングで使用するロボットデータの量が「少量(small-scale)」で済むという点です。大量のロボット固有データを収集しなくても、人間映像から得た物理知識が下支えとなり、少量のデータで効果的なファインチューニングが可能になっています。これは実務上、ロボット導入のコストを大幅に削減しうる発見です。

研究チームはアブレーション実験を通じて、事前学習の有無がシミュレーション品質に与える影響を定量的に検証しています。相対行動変換、チャンク行動注入、時間整合性損失の各コンポーネントを段階的に適用した結果、すべてを組み合わせた場合に最高の性能が得られたと報告されており、事前学習の寄与が明確に確認されています。

家庭・産業・小売など2,000倍のシーン多様性が未知環境への対応力を高める具体例

DreamDojo-HVのシーン多様性は、従来最大のロボット学習用データセットと比較して約2,000倍に達します。この多様性がもたらす具体的な効果として、研究チームは未知環境への汎化能力の大幅な向上を挙げています。

たとえば、ロボットが訓練データに含まれていない種類のキッチン道具を操作する場面を考えてみます。従来のモデルではフライパンの形状や重さに関する経験がなければ適切な力加減を予測できませんでしたが、DreamDojoは人間が多様な調理器具を扱う映像を大量に学習しているため、未見の物体に対しても物理的に妥当な動作を予測できる可能性が高まります。

産業環境においても同様の利点があります。製造現場はラインごとに配置やツールが異なり、照明条件も一定ではありません。DreamDojo-HVには産業環境の映像も豊富に含まれているため、特定の工場だけでなく、異なる製造現場への展開時にもシミュレーション精度が維持されやすくなります。こうした環境多様性は、実用化を見据えたロボット開発において極めて重要な要素です。

スキル数96倍の拡張によりDreamDojoが獲得した接触操作タスクへの対応範囲と精度

DreamDojo-HVが網羅するスキルの種類は、既存の公開データセットと比較して約96倍にのぼります。ここでいう「スキル」とは、物体を掴む・押す・回す・積み重ねるといった基本動作から、複数の物体を組み合わせて操作する複合動作まで、ロボットが実行しうるインタラクションの種類を指します。

特にDreamDojoが強みを発揮するのは、接触操作(コンタクトリッチ)タスクの領域です。接触操作タスクでは、物体との接触面で発生する力や摩擦、変形を正確にモデル化する必要があり、従来のワールドモデルでは特に難易度が高いとされてきました。DreamDojoは96倍のスキル多様性を持つ映像から、さまざまな接触パターンの物理法則を学習しているため、この分野でのシミュレーション品質が向上しています。

論文中のOOD(分布外)ベンチマーク評価では、DreamDojoがオープンワールドの接触操作タスクにおいて従来手法を上回る結果を示しています。これは単にスキル数が多いだけでなく、多様なスキル間で共有される物理法則をモデルが抽象化して学習できていることの証左だと研究チームは述べています。

潜在行動と蒸留による2段階パイプラインがDreamDojoにリアルタイム推論をもたらす仕組み

DreamDojoの技術的な独自性は、事前学習からリアルタイム推論までの一貫したパイプライン設計にあります。人間映像から物理知識を獲得するフェーズ1、特定ロボットに適応するフェーズ2、そしてリアルタイム速度を実現する蒸留プロセスという3つの段階を経て、実用可能な速度での映像生成を達成しています。ここではその技術的な仕組みを詳しく解説します。

フェーズ1:人間映像と潜在行動による事前学習で物理知識を獲得するまでの処理フロー

DreamDojoの第一段階では、44,711時間のDreamDojo-HVデータセットを用いた大規模な事前学習が行われます。この段階の目的は、映像に映る物理世界のダイナミクス——物体の動き方、重力の影響、接触時の挙動など——をモデルに理解させることです。

処理フローとしては、まず潜在行動モデルが各映像の連続フレーム間から自己教師あり方式で行動ベクトルを抽出します。この行動ベクトルは、フレーム間の変化を引き起こした「原因」を潜在空間上に符号化したものです。次に、Cosmos Predict 2.5のアーキテクチャに対して、この潜在行動ベクトルを条件として入力し、与えられた行動に基づいた将来フレームの予測を学習させます。

パッシブな映像(行動ラベルなしの映像)をそのまま学習に使うと、観測と行動の間の因果関係が失われ、行動条件付きシミュレーションの品質が低下するリスクがあります。潜在行動の導入は、この因果性を保持しながらラベルなしデータからも学習を可能にするための工夫です。結果として、DreamDojoは映像のパターン認識にとどまらず、行動と結果の因果関係を理解したワールドモデルへと成長します。

フェーズ2:少量のロボットデータで行動制御を微調整するポストトレーニングの設計意図

フェーズ1で物理知識を獲得したDreamDojoは、フェーズ2で特定のロボットプラットフォームに適応するためのポストトレーニングを受けます。このフェーズでは、対象ロボットの連続行動データ(関節角度や速度の時系列)を用いて、潜在行動から実際のロボット制御信号への変換を学習します。

ポストトレーニングの設計意図は明確です。フェーズ1で獲得した汎用的な物理知識を保持しつつ、特定ロボットの身体構造や運動特性に合わせた微調整を行うことで、少量のロボットデータでも精密な行動制御を可能にすることを目指しています。この戦略は、大規模言語モデルの事前学習+ファインチューニングと同じ原理に基づいています。

論文で報告されているGR-1ロボットのケースでは、GR-1のテレオペレーションデータセットという比較的小規模なデータのみでポストトレーニングが実施されました。それにもかかわらず、未知の物体や環境に対しても物理的に整合性のあるシミュレーションが生成されたことは、フェーズ1の事前学習が十分な物理的基盤を提供していることの証拠です。

相対行動変換・チャンク注入・時間整合性損失の3技法がシミュレーション品質に与える効果

DreamDojoの研究チームは、Cosmos Predict 2.5の基本アーキテクチャに対して3つの重要な技術的改良を加えています。これらの改良がシミュレーション品質にどのような影響を与えるかは、段階的なアブレーション実験で検証されています。

技法 概要 主な効果
相対行動変換(Relative Action Transformation) 行動入力を絶対座標ではなく相対変位で表現 行動追従性の大幅な改善
チャンク行動注入(Chunked Action Injection) 行動信号を時間方向にチャンク化してモデルに注入 精密な行動制御性の向上
時間整合性損失(Temporal Consistency Loss) 時間方向の一貫性を強化する損失関数の追加 物体モデリングの品質向上

アブレーション実験の結果、相対行動変換とチャンク行動注入のいずれもシミュレーション品質を顕著に改善し、3つすべてを組み合わせた場合に最高性能が達成されています。特に時間整合性損失は、長時間にわたるシミュレーションでの映像の一貫性を保つうえで重要な役割を果たしています。

Self Forcing蒸留で教師モデルから10.81FPSの生徒モデルへ変換するプロセスと成果

ワールドモデルが実用的なアプリケーション(テレオペレーションやモデルベースプランニングなど)で使われるためには、リアルタイムに近い速度での映像生成が不可欠です。しかし、拡散モデルベースの映像生成は一般に計算コストが高く、そのままではリアルタイム処理には適していません。DreamDojoの研究チームは、Self Forcingパラダイムに基づく蒸留パイプラインを開発し、この課題を克服しました。

蒸留プロセスでは、高品質だが低速な「教師モデル」の出力を模倣しながら、少ないステップで同等の映像を生成できる「生徒モデル」を訓練します。DreamDojoの場合、2Bパラメータの教師モデルからの蒸留により、10.81FPSのリアルタイム推論速度を達成しました。これは1分間以上の連続映像生成において維持される速度であり、実用的なテレオペレーションやオンラインプランニングに十分なフレームレートです。

蒸留にはもう1つの副次的な効果がありました。自己回帰生成で発生しがちな時間方向の不整合(フレーム間のちらつきや物体の消失など)が、蒸留後のモデルでは改善されたのです。短い時間コンテキストを効率的にモデリングすることで、長時間生成時の一貫性が向上しています。

640×480解像度で任意長の未来フレームを予測可能にする蒸留後モデルの性能仕様

蒸留後のDreamDojoモデルは、640×480ピクセルの解像度で将来フレームを自己回帰的に予測する能力を持ちます。フレームレートは10.81FPSで、理論上は任意の長さにわたって映像を生成し続けることが可能です。論文内の実験では1分間の連続ロールアウトが評価対象として使用されており、その間の映像品質と行動追従性が検証されています。

この性能仕様を実務的な視点で評価すると、640×480解像度はロボットの視覚制御に十分な情報量を提供するレベルです。ロボットのポリシー評価やテレオペレーション支援においては、この解像度で物体の位置関係や接触状態を判別できるため、実用上の障壁は低いと考えられます。

ただし、より高精細なシミュレーションが求められる品質検査や微細組立のようなタスクでは、解像度の向上が将来的な課題として残ります。また、10.81FPSという速度は人間の視覚体験(通常30〜60FPS)と比べると控えめであり、リアルタイムのテレオペレーションでは遅延を最小化するための追加的な工夫が求められる場面もあるでしょう。これらは現時点でのトレードオフとして認識しておく必要があります。

GR-1からYAMまで複数ヒューマノイドで実証されたDreamDojoの汎化性能と適用領域

ワールドモデルの価値は、特定のロボットだけでなく複数のプラットフォームで機能することによって初めて実用的な意味を持ちます。DreamDojoは4種類のヒューマノイドロボットでの動作を実証しており、その汎化性能と適用可能な領域を以下に詳しく見ていきます。

GR-1・G1・AgiBot・YAMの4プラットフォームで確認された行動条件付きロールアウトの概要

DreamDojoの研究チームは、GR-1、G1、AgiBot、YAMという4種類のヒューマノイドロボットプラットフォームで行動条件付きロールアウト(行動入力に基づいた将来映像の予測生成)を実施しています。各ロボットは関節構成や自由度、体格が異なるにもかかわらず、DreamDojoはいずれのプラットフォームでも物理的に妥当な映像を生成できることが確認されました。

この4プラットフォーム対応の実証は、DreamDojoが特定のロボット身体に過剰適合していないことの重要な証拠です。事前学習で獲得した物理知識が身体の差異を超えて転移可能であり、ポストトレーニングで各プラットフォーム固有の運動特性を短期間で学習できることを示しています。

実証された映像は多様な環境と物体インタラクションを含んでおり、テーブル上の物体操作、棚からの物体取得、箱への収納といった日常的なタスクが対象になっています。各プラットフォームでのロールアウト品質はプロジェクトページで公開されており、視覚的にその精度を確認することが可能です。

未知物体や環境への対応力を測るOODベンチマークにおけるDreamDojoの定量的成果

DreamDojoの汎化性能は、複数の分布外(OOD: Out-of-Distribution)ベンチマークで体系的に評価されています。OODベンチマークは、訓練データに含まれない物体や環境をテスト条件として使用するもので、モデルが単にデータを暗記するのではなく、物理法則の一般則を理解しているかを検証する目的で用いられます。

論文内で報告されている反事実評価(Counterfactual Eval)セットでは、実際には行われなかった行動に対するシミュレーションの妥当性が評価されています。この評価では、DreamDojoが基盤モデル(Cosmos Predict 2.5のバニラ版)を大幅に上回る結果を示しました。物体のモデリング精度と行動追従性の両面でスコアが改善されたことが確認されています。

OOD評価でのこうした成果は、DreamDojoが実験室で見たことのないシナリオにも対応できる可能性を示唆しています。ただし、これは研究論文で設定された評価条件下での結果であり、完全にオープンな実世界環境での検証は今後の課題として残されている点も認識しておくべきです。

ポリシー評価への適用——実機展開なしで制御方策の信頼性を検証できる実務フロー

DreamDojoの最も直接的な実務応用の1つが、ポリシー評価(Policy Evaluation)です。ポリシー評価とは、ロボットの制御方策(ポリシー)が現実世界で安全かつ効果的に動作するかを、実機を使わずにシミュレーション上で検証するプロセスを指します。

従来、ポリシー評価には実際のロボットを使った試行が不可欠でした。しかし、実機での試行にはロボットの破損リスク、環境準備のコスト、試行時間の長さという3つの負担がつきまといます。DreamDojoを使えば、ある制御方策がさまざまな環境条件下でどのような振る舞いを見せるかを、映像シミュレーションとして高速に確認できるようになります。

具体的な実務フローとしては、まず評価対象の制御方策から行動シーケンスを生成し、それをDreamDojoに入力して将来フレームを生成します。生成された映像を分析することで、物体への接触が意図通りに行われているか、予期しない衝突が発生していないかなどを目視で確認できます。このフローにより、実機での試行前に明らかな問題点を洗い出し、開発サイクルを短縮することが可能です。

ライブテレオペレーションでのリアルタイム映像生成がオペレーション現場にもたらす価値

DreamDojoの蒸留モデルは10.81FPSでのリアルタイム映像生成を実現しており、これによりライブテレオペレーション(リアルタイム遠隔操作)での活用が可能になっています。テレオペレーションの文脈では、オペレーターがロボットに対して行動指示を送り、その結果として環境がどう変化するかを即座に映像として確認できることが重要です。

従来のシミュレーション環境では、物理エンジンベースのシミュレーターがこの役割を担ってきましたが、物理エンジンは現実との見た目の乖離(ビジュアルギャップ)が大きいという課題がありました。DreamDojoが生成する映像は実写に近い品質を持つため、オペレーターの判断をより直感的に支援できる可能性があります。

実務的には、ロボット導入前のオペレータートレーニングや、遠隔地からのロボット操作のプレビュー機能としての活用が考えられます。特に製造現場で新たなタスクをロボットに教示する際に、リアルタイムでシミュレーション映像を見ながら操作手順を調整できることは、教示効率の向上に直結します。

モデルベースプランニングによるテスト時改善が製造・物流の導入判断に与える影響

DreamDojoが実現するもう1つの重要な応用がモデルベースプランニングです。これは、ロボットが行動を実行する前に、ワールドモデルを使って複数の行動候補の結果をシミュレーションし、最適な行動を選択する手法です。従来の反射的な制御方策(入力を受けて即座に行動を出力する方式)と異なり、「考えてから動く」アプローチが可能になります。

テスト時改善(test-time improvement)とは、事前に学習した制御方策を実行時にワールドモデルを使ってさらに改善することを指します。複数の行動候補を生成し、それぞれの結果をDreamDojoでシミュレーションし、最も望ましい結果が得られる行動を選択するプロセスです。この仕組みにより、学習時には想定されていなかった状況にも柔軟に対応できる可能性が高まります。

製造・物流の現場では、この技術は導入判断に大きな影響を与えうるものです。ロボットが未知の状況に直面した際に停止するのではなく、自律的に最適な行動を探索できる能力は、無人化・省人化を推進するうえで重要な要素となります。ただし、モデルベースプランニングは計算コストが高くなりがちであるため、リアルタイム性とのバランスが実用化の鍵を握ります。

Cosmos Predict 2.5との関係から見るDreamDojoのエコシステム上の位置づけと差別化要因

DreamDojoはNVIDIAのCosmos WFMエコシステムの上に構築されていますが、Cosmosプラットフォーム全体のなかでどのような位置づけにあるのかを理解することは、導入検討の第一歩として重要です。ここではCosmosファミリーとの関係と、DreamDojoならではの差別化ポイントを整理します。

NVIDIAのCosmos WFMプラットフォーム全体像のなかでDreamDojoが担う研究的役割

NVIDIAのCosmosプラットフォームは、物理AIの開発を加速するために設計されたワールド基盤モデル群を中心に構成されています。2025年1月のCESで初めて発表されて以降、Cosmos Predict(将来予測)、Cosmos Transfer(合成データ生成)、Cosmos Reason(推論VLM)、Cosmos Policy(ロボット制御方策)といった複数のモデルが順次リリースされてきました。

DreamDojoはこのCosmosファミリーのなかで、大規模人間映像データを活用した事前学習による汎用ワールドモデルの実現可能性を示す研究プロジェクトとしての役割を担っています。Cosmos Predict 2.5を基盤としつつ、潜在行動やポストトレーニングといった独自の技術を付加することで、接触操作タスクへの特化とマルチプラットフォーム対応を実現しています。

重要なのは、DreamDojoは現時点では研究論文として発表された成果であり、NVIDIA製品として直接販売されているわけではないという点です。しかし、Cosmosエコシステムの技術的発展方向を示す先行事例として、今後のCosmos製品群への統合や影響が注目されています。

Cosmos Predict・Cosmos Reason・Cosmos Policyとの機能分担と技術的な相違点

Cosmosファミリーの各モデルは、ロボット開発のライフサイクルにおいて異なる役割を果たしています。Cosmos Predictは将来フレームの予測を担当する映像生成モデルであり、DreamDojoの基盤として使われています。Cosmos Reasonは物理世界の理解と推論を行うビジョン言語モデルで、ロボットの高レベル計画に活用されます。Cosmos Policyは制御方策そのものを生成するモデルです。

モデル名 主な機能 対象タスク DreamDojoとの関係
Cosmos Predict 2.5 将来フレーム予測 映像生成・合成データ DreamDojoの基盤アーキテクチャ
Cosmos Reason 2 物理推論VLM 状況理解・計画支援 補完的(推論層として連携可能)
Cosmos Policy ロボット制御方策生成 マニピュレーション制御 競合的(世界モデルベースの方策)
DreamDojo 人間映像からの汎用ワールドモデル 物理シミュレーション・ポリシー評価 Cosmos Predictを拡張した研究成果

DreamDojoの差別化ポイントは、人間映像という既存のデータ資源を活用して大規模な事前学習を行い、複数ロボットへの転移を実証した点にあります。Cosmos Policyがロボットデータのみで制御方策を学ぶのに対し、DreamDojoは人間の動作からも物理知識を獲得するという異なるアプローチを採っています。

オープンモデルとして200万回超ダウンロードされたCosmos基盤を活用する実務的な強み

Cosmos WFMはオープンモデルライセンスのもとで公開されており、2025年から2026年にかけて200万回以上ダウンロードされたと報告されています。DreamDojoがこのCosmosの上に構築されていることは、実務的な観点からいくつかの強みをもたらします。

第一に、Cosmosの広範なユーザーコミュニティとナレッジベースを活用できる点です。NeMo Curatorによるデータ処理、DGX Cloudでの大規模学習、NIM microservicesでのデプロイメントといったNVIDIAの周辺ツール群との連携が期待できるため、研究から実装までのワークフローが効率化される可能性があります。

第二に、Cosmos基盤の継続的な改善の恩恵を受けられる点です。NVIDIAがCosmos Predict系列をアップデートすれば、DreamDojo的なアプローチで構築されたモデルも基盤性能の向上を享受できる可能性があります。これは自社独自のワールドモデルを一から開発する場合にはない利点です。

Figure AI・Agility Robotics・1Xなど主要採用企業の活用目的から読む市場ニーズ

Cosmosプラットフォームを採用している企業群からは、市場がロボットワールドモデルに何を求めているかが見えてきます。Figure AI、Agility Robotics、1X、Skild AI、Foretellix、Uber、Waabiといった企業がCosmos WFMの初期採用者として名を連ねています。

これらの企業の共通点は、ヒューマノイドロボットの商用化や自律走行車の開発を進めており、膨大なトレーニングデータと信頼性の高いシミュレーション環境を必要としていることです。特に「実世界展開前のシミュレーションベースの検証」という需要は、DreamDojoのポリシー評価機能やモデルベースプランニングと直接的に合致しています。

ヒューマノイドロボットの分野では、Jensen Huang CEOが2025年のダボス会議でAIロボティクスを「一世代に一度の機会」と表現しており、NVIDIAの事業戦略においてロボット向けワールドモデルが重要な柱として位置づけられていることが読み取れます。DreamDojoの研究成果は、こうした市場の方向性と軌を一にしており、今後の製品統合への期待感を高めています。

Cosmos対自社開発ワールドモデルの選定時に技術リーダーが比較すべき5つの観点

ロボット開発に取り組む技術リーダーにとって、Cosmosエコシステムを採用するか自社独自のワールドモデルを開発するかは重要な意思決定です。この判断にあたっては、以下の5つの観点からの比較検討が有効です。

  1. データ要件と収集コスト:Cosmos/DreamDojoは既存の映像データを活用できるため初期投資を抑えられるが、自社固有の環境データはポストトレーニングとして別途必要になる
  2. カスタマイズ性と制御度:自社開発はアーキテクチャの隅々まで制御可能だが、開発・維持のリソース負担が大きい。Cosmosベースはカスタマイズの範囲に制約がある一方で、基盤品質が保証される
  3. 計算インフラ:NVIDIAのGPU環境との最適化が進んでいるCosmosは、NVIDIA DGXを既に導入している組織には親和性が高い
  4. コミュニティとサポート:オープンモデルコミュニティの知見を活用できるCosmosに対し、自社開発は社内リソースのみに依存する
  5. ロードマップの整合性:Cosmosの今後の発展方向が自社の開発計画と合致するかどうかの見極めが重要

いずれの選択にもトレードオフが存在するため、自社のロボット開発のフェーズ、対象タスクの特殊性、利用可能な計算リソースを総合的に勘案して判断することが求められます。

DreamDojo導入を検討する技術意思決定者が知るべき現時点の制約と今後の展望

DreamDojoは汎用ロボットワールドモデルとして注目に値する研究成果ですが、実務への導入を検討する際には現時点での制約を正しく理解しておく必要があります。ここでは技術的・ライセンス的・戦略的な観点から、導入判断に必要な情報を整理します。

研究段階の成果を実環境に展開するうえで残るシミュレーション・リアリティギャップの現状

DreamDojoは研究論文として発表された成果であり、制御された評価環境下での性能は実証されています。しかし、研究環境と実運用環境の間にはシミュレーション・リアリティギャップ(sim-to-real gap)と呼ばれる乖離が常に存在します。このギャップの大きさが、DreamDojoの実務適用可能性を左右する最重要ファクターの1つです。

DreamDojoが生成するのはあくまで映像(ピクセル空間でのシミュレーション)であり、物理エンジンが提供するような力学的に正確なシミュレーションとは性質が異なります。映像生成ベースのワールドモデルは、見た目の妥当性は高いものの、接触力の正確な数値や変形の物理的精度については保証がない場合があります。

また、論文内の評価は主にテーブルトップのマニピュレーションタスクが中心であり、全身運動を伴うロコモーションや複雑な環境でのナビゲーションについては、汎化性能の検証が今後の課題として残されています。実環境への展開を検討する場合は、対象タスクがDreamDojoの実証範囲に含まれているかどうかを確認することが重要です。

44,000時間規模のデータ処理に必要な計算リソースとインフラ要件の目安

DreamDojoの規模の事前学習を再現するには、相応の計算リソースが必要です。44,711時間の映像データの処理と、大規模な拡散モデルの学習には、高性能GPUクラスターが求められます。論文の著者にはNVIDIA所属の研究者が多数含まれており、NVIDIA社内の計算インフラが活用されたことが推察されます。

一般的な企業が同等の事前学習を実施することは、現時点ではコスト面で現実的ではない可能性が高いです。しかし、DreamDojoの手法を活用する場合の現実的なアプローチとしては、事前学習済みモデルをそのまま利用し、自社のロボットデータでポストトレーニングのみを行うことが考えられます。このポストトレーニングは比較的少量のデータと計算リソースで実行可能であるとされています。

インフラ要件の目安としては、ポストトレーニングと蒸留にはNVIDIA A100またはH100相当のGPUが複数台必要になると想定されます。推論時はより少ないリソースで済む可能性がありますが、10.81FPSのリアルタイム生成を維持するためには、蒸留後モデルの推論に最適化されたGPU環境が求められます。

オープンモデルライセンスの適用範囲と商用利用時に確認すべき3つの注意点

Cosmos WFMはオープンモデルライセンスのもとで公開されていますが、DreamDojo固有のコンポーネント(DreamDojo-HVデータセットや追加の学習モジュール)については、ライセンス条件を個別に確認する必要があります。商用利用を検討する場合、以下の3点を事前に確認することが推奨されます。

第一に、DreamDojo-HVデータセットの利用条件です。クラウドソーシングで収集された大規模映像データには、プライバシーや肖像権に関する制約が含まれている可能性があります。データセット自体の商用利用可否は、公開条件に明示されているか確認が必要です。

第二に、Cosmos Predict 2.5のライセンスとの整合性です。基盤モデルのライセンスがDreamDojoの派生利用にどこまで適用されるかは、オープンモデルライセンスの条項を精査する必要があります。NVIDIAは開発者コミュニティへの普及を重視しているため比較的寛容なライセンスが設定される傾向にありますが、商用展開前の法務確認は不可欠です。

第三に、生成された映像データの二次利用に関する制約です。DreamDojoが生成したシミュレーション映像を学習データとして再利用する場合の条件についても、あらかじめ整理しておくことが望ましいでしょう。

DreamDojoの成果がNVIDIA Isaac・Omniverse製品群に統合される可能性と時期的見通し

NVIDIAはCosmos WFMをIsaacロボティクスプラットフォームやOmniverse物理シミュレーション環境と統合する動きを加速しています。2025年から2026年にかけてのリリースでは、Cosmos Predictの新バージョンやCosmos Policy、GR00T N1.6といったロボット向けモデルが次々とIsaacエコシステムに組み込まれてきました。

DreamDojoの研究成果がこれらの製品群に直接統合されるかどうかは、2026年2月時点では公式には発表されていません。しかし、DreamDojoの潜在行動による事前学習手法や大規模人間映像活用のアプローチは、Cosmos Predict系列の次期バージョンに影響を与える可能性が高いと考えられます。

時期的な見通しとしては、NVIDIAは例年GTC(GPU Technology Conference)やCES、SIGGRAPHといったイベントでロボティクス関連の新技術を発表しています。DreamDojoの成果が製品レベルのツールとして提供される場合、これらのイベントに合わせた発表が想定されます。Cosmosプラットフォームの更新頻度を考慮すると、2026年後半から2027年にかけて何らかの統合が進む可能性が考えられますが、これは推測の域を出ません。

汎用ロボットワールドモデル完成に向けた次の技術マイルストーンと業界全体の動向

DreamDojoは汎用ロボットワールドモデルの実現に向けた重要な一歩ですが、この分野にはまだ多くの技術的課題が残されています。次のマイルストーンとして考えられるのは、より高解像度・高フレームレートでのリアルタイム生成、全身ロコモーションへの対応拡大、そして物理精度の定量的保証です。

業界全体の動向を見ると、ロボットワールドモデルの研究は急速に活発化しています。Hugging Face上ではDreamDojo以外にも、LIVE(Long-horizon Interactive Video World Modeling)、AnchorDream、ConLAなど複数の関連研究が同時期に発表されており、人間映像からのロボット知識獲得は1つのトレンドとして確立しつつあります。

NVIDIAのJensen Huang CEOが述べた「ロボティクスのChatGPTモーメント」が実現するためには、DreamDojoのような研究成果が製品化され、ロボット開発者が容易に利用できる形で提供される必要があります。現時点では研究と製品の間にギャップがありますが、NVIDIAがCosmosエコシステムの拡充を続けていることを考慮すると、そのギャップは徐々に縮まっていく方向にあるといえるでしょう。物理AIとロボティクスの融合は今後数年で大きな進展が見込まれる領域であり、DreamDojoはその潮流のなかで重要な位置を占めています。

資料請求

RELATED POSTS 関連記事