地球の上に視覚・音声・テキスト・動画のアイコンが浮かぶマルチモーダルAIの抽象的なイメージ

記事

NVIDIAが「Nemotron 3 Nano Omni」を公開、視覚・音声・言語を1モデルに統合した30Bマルチモーダルエージェント基盤

NVIDIAは2026年4月28日、視覚・音声・言語を1モデルに統合したオープンウェイトのマルチモーダルエージェント基盤「Nemotron 3 Nano Omni」を公開しました。30B-A3BのMixture-of-Experts、256Kコンテキスト、同等の対話性能を持つ他のオープンOmniモデル比で9倍のスループット、Hugging Faceや`build.nvidia.com`を含む25以上のパートナー経由で配布されます。

視覚・音声・言語を1モデルに束ね、エージェントの「目と耳」を担う

NVIDIAは2026年4月28日、オープンウェイトのマルチモーダルエージェント基盤Nemotron 3 Nano Omniを公開しました。同社のブログでは、AIエージェントが視覚・音声・言語のためにそれぞれ別モデルを呼び出している現状を「データを受け渡すたびに時間と文脈を失う」と整理した上で、新モデルを**「エージェント群の中の『目と耳』」**と位置付けています。

この設計の狙いは、文書のレイアウト、音声、動画フレームを1回のフォワードパスで扱うことで、レイテンシを下げつつ複数モダリティをまたぐ推論を成立させる点にあります。エージェント側は、画面操作・コールセンター・現場映像の監視といったタスクを単一の「観測モデル」に集約できる構成です。

視覚・音声・テキスト・動画のアイコンが地球の周囲に並ぶマルチモーダルモデルのイメージ図

画像引用元: NVIDIA Blog

30B-A3BのMoEと256Kコンテキスト、9倍スループットを謳う

NVIDIAによると、Nemotron 3 Nano Omniは30B-A3BのハイブリッドMixture-of-Expertsアーキテクチャを採用し、256Kトークンのコンテキストを備えます。性能面では、同等の対話性を持つ他のオープンOmniモデルと比較して9倍のスループットを実現し、文書知能と音声・動画理解の6つのリーダーボードで首位の精度としています。

スループットを稼ぐ設計は、エージェントの「目と耳」を実時間で回す前提のものです。たとえばコンピューター操作エージェントでは、画面の更新ごとに新しい入力が発生するため、視覚理解の遅さがそのままエージェントの生産性低下に直結します。NVIDIAはここをA3B（アクティブ3Bパラメーター）の効率で押し切るという設計判断を取った形です。

用途は「画面を読む・書類を理解する・映像を監視する」

ブログが具体的なターゲット用途として挙げているのは、次の3領域です。

コンピューター操作エージェント：GUIをスクリーンショットから読み取って操作する用途
文書知能：PDF、スプレッドシート、チャート、スクリーンショットの理解
音声・動画理解：顧客対応や現場・遠隔監視

いずれも単一モダリティ専門モデルでは捌ききれない、**「画面と音声と書類を同時に見る」**現場のニーズです。NVIDIAは早期採用企業として、Aible、Applied Scientific Intelligence、Eka Care、Foxconn、H Company、Palantir、Pylerを挙げており、評価中の企業としてDell、Docusign、Infosys、Oracle、Zefrの名前が並びました。金融・医療・製造・SI領域に最初の波が来るという読みです。

配布は25以上のパートナー経由、Jetson／DGX／クラウドで動かせる

モデルウェイトは公開済みで、Hugging Face、OpenRouter、build.nvidia.com、その他25以上のパートナープラットフォームから取得できると案内されています。実行環境としては、エッジ向けのNVIDIA Jetson、データセンター向けのDGXハードウェア、各種クラウドが想定されています。

オープンウェイトの公開と、ハードウェア・ホスティング・SaaSパートナーが揃った状態でリリースされる動きは、**「軽くて多目的なエージェントの観測モデル」**をエコシステム側に握ろうとする意図が透けて見えます。NVIDIAにとっては、Jetsonのようなエッジ製品からDGXまで自社のシリコンに沿って広がる導入経路を確保しつつ、Hugging Face経由で外部の開発者にも触れてもらうという「両面戦略」が機能する形です。

評価の論点：実用ベンチと、実運用でのトークン経済

NVIDIAは「best-in-class open omni-modal reasoning model」を謳っていますが、実装で評価する際の論点もはっきりしています。視覚・音声・動画の同時入力はコンテキスト消費が大きく、256Kといってもフレーム列や音声波形を扱えば容易に圧迫します。エージェントの繰り返し呼び出しでは、1分あたりのトークン経済が現実の利用可否を決めます。9倍スループットの主張は、ここに直接効いてくる数字です。

また、文書知能と音声・動画のリーダーボードでの首位は、ベンチが想定するシナリオに依存します。GUI操作のように、解像度・遅延・タスク粒度が現場ごとに違う領域では、ベンチ結果と運用結果の乖離が起きやすいので、自社ユースケースでの再評価が前提になります。NVIDIAが早期採用企業のリストを通じて多様な導入事例を見せていく姿勢は、こうした不確実性を埋めるための布石とも読めます。

オープンウェイトとして配布された以上、コミュニティ側からのファインチューン、量子化、vLLM／TensorRT-LLMでの推論最適化といった派生作業も短期間に進む見込みです。エージェント基盤の選択肢として、**「目と耳を1モデルに集約する」**という設計案が現実的になったかどうかは、今後数週間の実装報告で見えてくるでしょう。