ロボットハンドが立方体をつかむ様子と奥行きのある道路、ノード群を描いた抽象イラスト

記事

NVIDIA、CVPR 2026で物理AI研究を公開——ロボット把持・自動運転・エージェント学習の3モデル

NVIDIAは2026年6月3日、CVPR 2026で物理AIに関する研究成果を発表しました。あらゆるハンドに対応するゼロショット把持モデルGraspGen-X、自動運転の推論を圧縮するLCDrive、ゲームで鍛える身体性エージェントNitroGenの3つが柱です。

NVIDIAは2026年6月3日、コンピュータビジョンの国際会議CVPR 2026にあわせて、物理AI（フィジカルAI）に関する研究成果を公開しました。ロボットの把持、自動運転、エージェントの大規模学習という3つの分野で、それぞれ新しいモデルや手法を示しています。実世界で動くAIをいかに賢く、効率よく学習させるかが共通のテーマです。

ロボットハンドが立方体をつかむ様子と奥行きのある道路、ノード群を描いた概念図

図版: NVIDIAの発表内容をもとに作成（出典: NVIDIA Blog）

3つの研究成果を一度に公開

今回NVIDIAが示したのは、GraspGen-X、LCDrive、NitroGenという3つの研究成果です。いずれも、シミュレーションや大規模なデータで学習させたモデルが、現実の多様な場面にどこまで一般化できるかを追求した内容になっています。

物理AIは、ロボットや自動運転車のように現実世界で行動するAIを指します。画面の中だけで完結する生成AIとは違い、物体をつかむ、車を走らせるといった「身体を伴う判断」が求められる領域です。NVIDIAはこの分野で、学習の土台となる基盤モデルの整備を進めています。

GraspGen-X：あらゆるハンドに対応する把持

GraspGen-Xは、ロボットによる物体の把持（グラスピング）を担う基盤モデルです。NVIDIAによると、数千種類の物体形状とハンドの構成にわたる20億回ぶんのシミュレーション把持データで学習させたとしています。

最大の特徴は、特定のハンドに合わせて学習をやり直す必要がない点です。グリッパーを別の種類に交換しても、そのたびに専用の再学習サイクルを回さずに使えるとされます。ロボットの現場ではハンドの形状が用途ごとに異なるため、ハンドを問わず使える「ゼロショット」の把持は、導入や切り替えの手間を大きく減らす可能性があります。

LCDrive：自動運転の推論を圧縮する

LCDriveは、自動運転車の判断（推論）を効率化する仕組みです。これまで言葉による思考の連鎖（チェーン・オブ・ソート）で表現していた推論を、圧縮した潜在表現に置き換えるアプローチを採ります。

NVIDIAによると、走行経路の品質を保ったまま、必要なトークン数をおよそ半分に減らせるとしています。土台には同社の自動運転向け基盤Alpamayoが使われています。処理を軽くできれば、車載の組み込みハードウェア上でもより速く判断を下せるため、限られた計算資源で動く車両にとって現実的な意味を持ちます。

NitroGen：ゲームで鍛える身体性エージェント

3つ目のNitroGenは、身体を伴って行動するエージェントの基盤モデルです。1000本を超えるゲームにまたがり、4万時間ぶんの操作データで学習させたとされ、NVIDIAのロボット基盤Isaac GR00Tのアーキテクチャをベースにしています。

NVIDIAによると、少ないデータしかない状況での性能を、従来手法と比べて最大52%改善したとしています。NitroGenはGitHubとHugging Faceでオープンソースとして公開されており、研究者や開発者が自分の手で試せます。基盤モデルを広く配ることで、外部の開発者を巻き込みながら物理AIの裾野を広げる狙いも見えます。

シミュレーションで学び、現実へ

3つの成果に共通するのは、シミュレーションや大量のデータで先に学習させ、それを現実の多様な状況へ一般化させるという考え方です。把持では20億回ぶんの模擬データ、エージェントでは4万時間ぶんの操作データと、いずれも人手では集めきれない規模の経験を仮想環境で積ませています。

現実世界での試行錯誤は時間も費用もかかり、危険を伴う場面もあります。シミュレーションで先に鍛えてから実機へ移す「シミュレーションから現実へ（sim-to-real）」の流れは、物理AIを実用に近づけるうえで欠かせない発想です。NVIDIAはモデルとデータ、開発ツールをそろえることで、この流れ全体を後押ししようとしています。

ロボットや自動運転に取り組む開発者にとっては、まず公開されているNitroGenを実際に動かしてみることが、こうした最新研究を自分の開発に取り込む第一歩になりそうです。