NVIDIAが、フィジカル AI 向けのオープンな世界基盤モデル「NVIDIA Cosmos 3」を発表しました。
NVIDIA Cosmos 3 の新アーキテクチャが取り組む基本課題
フィジカル AI の開発においては、限られた学習データと断片化されたシミュレーション スタックで現実世界への汎化を目指すという基本課題がありました。Cosmos 3 の mixture-of-transformers アーキテクチャは、リーズニング用のトランスフォーマーと、エキスパート生成型トランスフォーマーを組み合わせた設計です。動画や動作軌跡を生成する前に、オブジェクトの相互作用・動き・空間と時間的な関係を理解できるようにしています。
Cosmos 3 は、テキスト、画像、動画、サウンド、動作軌跡にわたるマルチモーダルなフィジカル AI データセットから数十億ものサンプルを用いて学習されました。より少ないデータと低い学習コストでフィジカル AI システムを構築するための、事前学習済み基盤モデルとして機能します。開発者が活用できる主な用途は次の3点です。
- さまざまなモダリティを理解・リーズニングする視覚言語モデル
- 物理環境をシミュレートして未来の世界状態を予測する世界基盤モデル
- ロボットがタスク実行を学習するための世界行動モデルのバックボーン
フィジカル AI ベンチマークでは、Artificial Analysis・Physics-IQ・PAI-Bench・R-Bench での世界生成精度においてオープンモデルのリーダーボードで1 位を獲得しました。RoboLab と RoboArena でのアクション ポリシー、VANTAGE-Bench と TAR での視覚理解においても同様にトップの評価を得ています。
NVIDIA Cosmos 3 のラインナップと各モデルの特徴
Cosmos 3 ファミリーは、フィジカル AI 開発のさまざまな段階に対応する3つのモデルで構成されています。それぞれの用途に応じた選択が可能で、ラインナップは以下の通りです。
- Cosmos 3 Super:ロボティクス・自動運転向けの高精度ポストトレーニングに最適
- Cosmos 3 Nano:数分の 1 秒で高品質な動画生成とアクション リーズニングを実現
- Cosmos 3 Edge:エッジにおけるリアルタイム推論向け(近日公開予定)
Cosmos 3 Super と Cosmos 3 Nano は現在利用可能です。開発者は build.nvidia.com 上で Cosmos 3 を試せるほか、Hugging Face からオープン モデルをダウンロードしたり、Hugging Face Diffusers と GitHub のリソースを使用してモデルをカスタマイズしたりできます。
NVIDIA NIM マイクロサービスとしてモデルを展開することも可能です。Baseten や CoreWeave、Microsoft Azure、Nebius といった主要クラウド インフラ パートナーを通じたアクセスにも対応しており、Deep Infra および Classmethod 経由でも利用できます。
NVIDIA Cosmos Coalition とパートナー企業の展開
NVIDIAは今回、グローバルなエコシステム構想「NVIDIA Cosmos Coalition」を立ち上げました。参加するのは、Agile Robots・Black Forest Labs・Dyna Robotics・Generalist・LTX・Runway・Skild AI といった世界的なモデル ビルダーと AI 開発者です。
Coalition のメンバーは、Cosmos 3 の技術・トレーニング ツール・NVIDIA DGX Cloud インフラを活用しながら、モデルや研究、評価手法を提供できます。オープンに構築し共有エコシステム全体で貢献することによって、フィジカル AI のより迅速なイノベーションと相互運用性の向上を目指すものです。
Cosmos プラットフォームを活用する企業は、すでに複数の業界に広がっています。ロボティクス領域では Agile Robots、Doosan Robotics、LG Electronics、Samsung、Skild AI が導入を進めてきました。自動運転領域では LiAuto が活用を進め、産業 AI やスマート空間向けのビジョン AI エージェント分野では Centific・Fogsphere・Linker Vision・Milestone Systems・Yuan がそれぞれ展開しています。
NVIDIA の創業者 / CEO であるジェンスン フアン (Jensen Huang) 氏は、「マルチモーダルなリーズニング、言語、視覚、世界モデルの飛躍的な進歩により、フィジカル AI のビッグバンがすぐそこまで来ています」と述べています。
NVIDIA Cosmos 3 概要
| 項目 | 詳細 |
|---|---|
| 開発元 | NVIDIA (NASDAQ: NVDA) |
| モデル名 | NVIDIA Cosmos 3 |
| カテゴリ | フィジカル AI 用のオープンな世界基盤モデル |
| アーキテクチャ | mixture-of-transformers |
| ラインナップ | Cosmos 3 Super / Cosmos 3 Nano / Cosmos 3 Edge(近日公開予定) |
| 対応モダリティ | テキスト・画像・動画・サウンド・動作軌跡 |
| トレーニング短縮効果 | 従来数カ月 → 数日 |
| 利用方法 | build.nvidia.com、Hugging Face、GitHub、NVIDIA NIM マイクロサービス |
trends編集部の一言
フィジカル AI のトレーニングサイクルが数カ月から数日に短縮されるというインパクトは大きく、業界全体としては AI モデルの開発コストと期間の圧縮が競争軸になってきました。今回の発表はその流れを加速させる動きとして注目されます。
マーケティング業界の文脈に置き換えると、合成データや動画生成ツールを活用して評価サイクルを高速化するというアプローチは、コンテンツ制作工程における課題解消の観点でも注目される動向です。Cosmos Coalition としてオープンなエコシステムを構築する設計は、特定ベンダーへの集中を避ける方向性が業界全体のエコシステム多様化という流れとも重なる取り組みとして、フィジカル AI 活用の広がりとともに注目されています。
References
- ^ PR TIMES. 「NVIDIA、フィジカル AI のためのオープンな最先端の基盤モデル、 Cosmos 3 を発表 | NVIDIAのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000615.000012662.html, (参照 26-06-05).
※上記コンテンツの内容やソースコードはAIで確認・デバッグしておりますが、間違いやエラー、脆弱性などがある場合は、コメントよりご報告いただけますと幸いです。
ITやプログラミングに関するコラム
【Git】remote設定を変更する方法
【VBA】コメントアウトを設定する方法
マークダウンで改行する方法
【CSS】notで複数の件を除外する方法
x86とx64の違いを分かりやすく解説
GitLabとGitHubの違いを解説
パソコンのメモリの目安を用途別に選ぶ方法
Linuxで環境変数を確認する方法
CapsLockキーを解除する方法
UbuntuのIPアドレスを確認する方法
ITやプログラミングに関するニュース
AITORAがAI検索での競合比較を可視化、対策レポートをモニター価格月額10万円〜で提供
株式会社MIXIが「Romi(Lacatanモデル)」の選べる声を全4種類に拡大、キャラ変との組み合わせが広がる
藤枝市役所が国産LLM「Sarashina」活用の窓口AI実証事業で総務省採択、ソフトバンクと協定締結
Hanji株式会社がAIチューター「Knock」に赤入れ添削機能を追加、数十秒〜1分程度で大学入試レベルまで対応
KozotaiがAIネイティブ会計ソフト「KOZOTAI」を正式リリース、自然言語入力だけで仕訳から決算書まで一貫処理
NTT西日本株式会社が大阪・福岡に次世代AI対応型データセンターを新設、西日本のAIインフラ強化へ
パテント・インテグレーション株式会社が「サマリア」の弁理士法対応を強化、利用規約改訂と注意喚起機能を追加
アステリアキャンバスがAI業務プラットフォーム「Bakusoku.AI」を提供開始、最短3分で業務ソフトウェアを自動生成
合同会社DMM.comが「DMMキャラトーク」を提供開始、1,000以上のパターンのキャラクターと1対1でトーク
株式会社アスレバがゴリラセールスAI商談を正式リリース、顧客の検討熱度が高い瞬間にAIが商談化を自動化
