NVIDIAが次世代AIプラットフォーム「Rubin」を発表、前世代Blackwell比で推論コストを最大10分の1に削減

NVIDIAが次世代AIプラットフォーム「Rubin」を発表、前世代Blackwell比で推論コストを最大10分の1に削減

推論コスト10分の1でAIの普及を加速

CES 2026の舞台で、NVIDIAは次世代AIプラットフォーム「Rubin(ルービン)」を発表しました。この新プラットフォームは現行のBlackwell世代を大きく凌駕する性能を備え、特に生成AIの推論処理において1トークンあたりの計算コストを最大で10分の1に削減することに成功しています。つまり、これまで同じAIモデルを動作させるのに必要だった計算資源や電力が大幅に節約でき、AIサービスの運用コストが劇的に低下します。

推論コストの飛躍的な最適化は、より多くの企業や開発者が高度なAIモデルを現実的なコストで利用できることを意味し、AIの普及と活用を一段と加速させるでしょう。Rubinはハードウェアとソフトウェアの両面で「極限の協調設計(Extreme Co-Design)」を採用しており、これにより前例のない効率性を実現しています。NVIDIAはRubinによって、AIスーパーコンピューティングを次のレベルへ引き上げ、年々高まる需要に応える新たな基盤を提供すると述べています。

極限の共同設計:6つの新チップでトレーニング時間を大幅短縮するRubinプラットフォームのアーキテクチャ

6種類の専用チップが生むシナジーで学習を加速

Rubinプラットフォームの鍵となるのは、ハードウェアを構成する6種類の新チップを一体化した「極限の共同設計」にあります。RubinはNVIDIAの最新GPUであるRubin GPUを中心に、高性能なVera CPU、超高速インターコネクト用のNVLink 6スイッチ、大容量・低レイテンシのConnectX-9 “SuperNIC”ネットワークインタフェース、ストレージやセキュリティ処理を担うBlueField-4 DPU、そして次世代フォトニクス技術を採用したSpectrum-6データセンタースイッチという6つの専用チップで構成されています。各チップがそれぞれの役割に特化しつつも相互に最適化されており、従来にない密接な連携によってシステム全体の性能を極限まで引き出します。

こうした統合アーキテクチャにより、AIモデルの訓練におけるあらゆる処理段階でデータ転送や演算のボトルネックを排除しています。例えば、第6世代NVLinkによるGPU間通信は各GPUあたり最大6TB/秒もの帯域幅を誇り、72基のGPUを搭載した1ラック全体では合計260TB/秒に達します。この驚異的な内部通信速度はインターネット全体のトラフィック容量をも上回る規模であり、もはやデータ移動が制約とならないことを示しています。さらにVera CPUはGPUへのデータ供給と制御を高速化し、BlueField DPUはネットワークおよびストレージ処理の負荷を肩代わりします。ConnectX-9 SuperNICとSpectrum-6スイッチによりノード間の通信も極めて高速・低遅延で行われます。これらの要素が相まってGPU資源をフル稼働させることが可能となり、大規模モデルのトレーニング時間も飛躍的に短縮されます。従来数週間を要した学習プロジェクトが数日に短縮されるケースも現実味を帯びており、Rubinの協調設計による圧倒的な効率向上は研究開発のスピードを一新すると期待されます。

Vera CPUとRubin GPUでエージェント型AIを加速し、高度なリーズニング能力を飛躍的に向上させる

大規模コンテキスト共有でエージェントAIの推論を強化

Rubinプラットフォームは、高度な「エージェント型AI」や推論重視のモデルの性能向上にも寄与します。エージェント型AIとは、チャットボットが自律的にタスクをこなしたり、複数のAI同士が連携して問題解決を図ったりするような応用分野を指します。こうしたシナリオでは、長大な履歴や知識ベースといったコンテキストを保持しながら、多段階にわたる推論(リーズニング)を行う必要があり、そのため大量のデータをリアルタイムに処理・参照する能力が求められます。

NVIDIAはRubinにおいて、推論時のコンテキストデータを効率的に共有・活用する新たなストレージ基盤を導入しました。BlueField-4 DPUを組み込んだ「Inference Context Memory」と呼ばれる仕組みにより、複数のGPUやノード間でキー・バリュー形式のキャッシュデータを高速にやり取りでき、エージェントAIが必要とする長い文脈情報を素早く参照可能になります。これによって、例えばマルチエージェントシステムにおける対話や問題解決の各ステップで、過去のやり取りや知識を即座に引き出して活用できるため、AIのリーズニング処理が一層スムーズかつ高度になります。また、高効率なVera CPUがGPUと連携して制御や分岐処理を担うことで、AIエージェントの意思決定や外部ツール実行などのタスクも迅速化されます。Rubinプラットフォーム全体として、エージェント型AIのような複雑なワークロードに対して従来以上に安定した高性能スケーリングを実現し、より「賢い」AIシステムの構築を後押しします。

72基のRubin GPUと36基のVera CPUを統合するラックスケールAIスーパーコンピューター「Vera Rubin NVL72」

1ラックに収めた究極のAIスーパーコンピューター

72基のRubin GPUと36基のVera CPUを組み合わせたラックスケールシステム「NVIDIA Vera Rubin NVL72」も発表されました。1ラックという限られたスペースにこれだけのハードウェアを高密度に統合し、内部でNVLink 6や高速ネットワークによって緊密に接続することで、ラック全体が一台の巨大AIスーパーコンピューターのように機能します。NVL72には先述のConnectX-9 SuperNICやBlueField-4 DPUも組み込まれており、ラック内外の通信からデータ管理・セキュリティまでを包括する統合AIインフラと言えます。

Vera Rubin NVL72は大規模AI向けに設計されており、企業やクラウド事業者がAIデータセンターに容易に展開できるリファレンスプラットフォームとなっています。その特徴の一つは高度なセキュリティと信頼性で、NVL72はラックスケールでは初めてCPUからGPUまでデータを常時暗号化・保護する「コンフィデンシャルコンピューティング」に対応しました。

さらに、第2世代のRASエンジンによりシステムの健全性監視や耐障害性が強化され、モジュール化されたトレイ設計によって保守作業も大幅に効率化されています。NVIDIAによれば、この新設計により従来世代と比べてシステム組み立て・交換作業が最大18倍のスピードで行えるようになり、ダウンタイムの最小化につながるといいます。

NVL72は必要に応じたスケールアウトも前提としており、例えばMicrosoftでは自社の次世代AIデータセンター(開発コード名「Fairwater AIスーパーファクトリー」)においてVera Rubin NVL72を採用し、数十万に及ぶRubin Superchipを用いた前例のない規模のクラスタを構築する計画を明らかにしています。また、より小規模な8基のGPUで構成される「HGX Rubin NVL8」システムも用意されており、用途に応じて柔軟なラインナップが提供されます。

大規模MoEモデルを4分の1のGPU数で訓練可能にするRubinプラットフォームの飛躍的性能革新を実現

GPUリソースを大幅節減し巨大モデルの訓練を実現

Mixture of Experts(MoE)と呼ばれる超大規模モデルは、複数の「エキスパート」と呼ばれるサブネットワークが協調して動作する構造を持ちます。その高い柔軟性と性能から次世代AIモデルの有力なアプローチとされていますが、従来は多数のGPUを並列動作させる必要があり、学習には莫大なリソースを要する点が課題でした。Rubinプラットフォームは、このMoEモデルの訓練を劇的に効率化します。NVIDIAの発表によれば、Rubinでは同規模のMoEモデルを訓練するのに必要なGPU数を従来世代の4分の1にまで削減できるといいます。これは、たとえば以前なら数百基のGPUを要していた学習ジョブが、Rubinでは二桁台のGPUで実現可能になることを意味します。

こうした飛躍的な性能革新を支える背景には、Rubin GPU自体の大幅な処理能力向上に加えて、前述したNVLink 6による高速なGPU間通信や、新たな圧縮技術・演算最適化(第3世代Transformer Engineなど)の導入があります。大量のエキスパート間で発生するデータのやり取りがボトルネックとなりにくいため、少数のGPUでも効率よくMoEモデルを学習・推論させることができるのです。これにより、研究者や企業はこれまで以上に高精度かつ大規模なモデルに挑戦しやすくなり、AIモデル開発の最前線がさらに押し広げられるでしょう。ハードウェア要件の引き下げは、AI開発コストの削減だけでなく、省電力にも直結するため、持続可能なAIの発展にも寄与すると期待されます。

天文学者Vera Rubinにちなんだ次世代AIプラットフォーム「Rubin」が企業のAIファクトリー化を支援

「AI工場」の基盤となり企業の変革を後押し

NVIDIAは本プラットフォームのコードネームを、米国の天文学者Vera Rubin(ヴェラ・ルービン)氏から取っています。Rubin氏は銀河の回転速度の観測を通じてダークマター(暗黒物質)の存在を裏付け、人類の宇宙観を一変させたことで知られる科学者です。NVIDIAはこれまでも先駆者の名を冠したGPUアーキテクチャ(PascalやAmpere、Hopperなど)を発表してきましたが、Rubinもその伝統に倣ったものであり、AIの世界に新たなパラダイムシフトをもたらすという意気込みが感じられます。

Rubinプラットフォームは企業のAIファクトリー化を強力に後押しすると期待されています。「AIファクトリー」とは、企業がデータを原料にAIモデルという製品を次々と生み出す工場のように、AI開発・運用を絶え間ないプロセスとして組織内に構築することを指します。Rubinはそのために必要な計算インフラをオールインワンで提供し、大規模AIの構築・展開・保護における新たな標準基盤となることを目指しています。

実際、クラウド大手からスタートアップまで幅広い企業がRubinへの支持を表明しており、AWS、Google Cloud、Meta、Microsoft、OpenAI、xAI、CoreWeaveといった名だたる組織が既にRubinプラットフォームの活用を計画しています。またNVIDIAはソフトウェア面でもRed Hatとの協業を拡大し、Rubin向けに最適化された包括的なAIスタック(Red Hat Enterprise LinuxやOpenShift、AIプラットフォーム製品群)を提供することで、企業が自社のAIファクトリーを迅速に立ち上げられるよう環境を整えています。Rubinの登場によって、AI技術の民主化がさらに進み、あらゆる業界でAIが中核的な生産手段となる未来が現実味を増してきました。

「NVIDIA Rubin」プラットフォームは2026年後半に量産出荷開始、AIデータセンター向けに提供予定

2026年後半に提供開始、主要クラウド各社が導入へ

NVIDIAによると、Rubinプラットフォームを構成する6種のチップはいずれも製造パートナーからシリコン試作が上がり初期テストに合格しており、現在はフル生産体制に入っています。Rubinベースの製品群は2026年後半からNVIDIAパートナー各社(サーバーメーカーやクラウド事業者など)を通じて順次提供が開始される予定です。まずMicrosoftやCoreWeaveといった最先端のクラウド基盤への実装が示唆されており、他の主要クラウド(例えばAWSやOracle OCI)やシステムインテグレーター各社も追随すると見られます。

なおNVIDIAは、Blackwell世代以前から「毎年新世代のAIスーパーコンピュータを投入する」という野心的なロードマップを掲げており、Rubinの投入によってそのサイクルをさらに加速させる形となりました。最新鋭ハードウェアをいち早く量産投入することで、爆発的に拡大する生成AIや大規模言語モデルの需要に引き続き応える狙いがあります。2026年後半の量産出荷開始以降、Rubinプラットフォームは世界中のAIデータセンターに順次展開され、次世代AIインフラの中核を担っていくことでしょう。

資料請求

RELATED POSTS 関連記事