記事

Hugging FaceがGemma 4 VLAをJetson Orin Nano Super上で動かすデモを公開——5BパラメータのVLAとSTT／TTSをエッジで完結

Hugging Faceは2026年4月22日、Gemma 4ベースのビジョン言語アクションモデルをJetson Orin Nano Super上で動かし、Webカメラ入力から自律的な行動判断と音声応答までを完結するデモを公式ブログで公開しました。

エッジで動くVLAエージェントの実装例

Hugging Faceは2026年4月22日、公式ブログで、Gemma 4系のビジョン言語アクション（Vision-Language-Action, VLA）モデルを、NVIDIAのJetson Orin Nano Super上で動かす実装例を公開しました。Webカメラの映像と音声入力から状況を判断し、音声で応答しつつ、別タスク（カメラの首振りや次のアクション選択など）を自律的に実行するパイプラインがオープンソースで提供されています。

クラウド側のLLM呼び出しを一切経由せず、5Bパラメータ規模のVLAモデルとSTT／TTSをすべてエッジ単体で完結する点が特徴で、ロボティクスや家庭向けデバイスのプロトタイピング基盤として注目を集めています。

カメラとJetsonと音声出力が連動するエッジAIエージェントのイメージ

画像引用元: Hugging Face Blog

モデル構成と量子化方針

Hugging Face側の解説によれば、今回のデモではGemma 4ベースのVLAモデル（5Bパラメータ、Q4_K_M量子化）が中心に置かれています。Q4_K_M量子化を選んだ理由として、Jetson Orin Nano Superの8GB LPDDR5メモリ枠内に画像エンコーダ・テキストデコーダ・KVキャッシュを収めつつ、毎秒8〜12トークン規模の推論を確保できる構成だと説明されています。

VLA本体に加えて、音声入力にはParakeet（NVIDIAが公開する英語ASRモデル）の小型版、音声出力にはKokoro TTSが組み合わされています。すべての推論はllama.cppのCUDAバックエンド上で実行され、ストリーミング応答を実現するために音声出力はチャンク単位で再生される設計です。

セットアップ手順

ブログでは、Jetson Orin Nano Superをセットアップし、必要なモデルとランタイムを取得する手順が紹介されています。代表的なコマンドは次のとおりです。

git clone https://github.com/huggingface/gemma4-vla-jetson
cd gemma4-vla-jetson
pip install -r requirements.txt
huggingface-cli download google/gemma-4-vla-5b-q4_k_m --local-dir models/vla

llama.cppのCUDAビルドは、Jetson Orin Nano Super向けに事前ビルド済みバイナリが配布されており、Jetpack環境であればデフォルトのCUDA 12系で動作するとされています。詳細はリポジトリのREADMEに記載されています。

デモワークフロー

公開されたデモでは、Webカメラからの画像入力と短いユーザー発話（例：「机の上にあるものを片付けて」）を受け取り、VLAモデルがシーン理解・タスク分解・カメラの再フレーミング指示・音声応答までを連続的に出力します。Hugging Face側はこの一連のループを「Perceive → Plan → Act → Speak」の4段階に整理しており、それぞれの段階で部分結果を保持しながら次のステップに引き渡す構成です。

ロボットアームなどの物理アクチュエータを直接制御する例も含まれており、Jetson Orin Nano Super上のROS 2ノードに対してVLAモデルが行動指示を発行する経路が紹介されています。クラウド呼び出しがないため、ネットワーク遮断環境や、プライバシー重視の家庭・医療現場での利用が想定されています。

同週のオンデバイスAI動向

同じ週には、NVIDIAとGoogle Cloudが提携拡大を発表し、クラウドGPUの大規模供給とVertex AIへのNemotron統合が示されました。一方、今回のJetson Orin Nano Superのデモはエッジ側でVLAを完結させる方向性を具体化したもので、クラウド集中型とエッジ自律型の両方の選択肢が同時に厚みを増している状況が見えます。

エンジニア視点では、5Bパラメータ・Q4_K_M量子化のVLAが家庭用エッジデバイスで動く水準に到達したことの意味が大きく、ロボティクス系プロダクトの試作や、現場での音声操作インタフェースのプロトタイピングが現実的な選択肢になります。

押さえておきたい注意点

ブログでは性能の前提条件として、Jetson Orin Nano Superの**最大電力モード（25W）**で計測したスループットが示されています。低電力モード（15W以下）では推論レートが低下するため、組込み機器に載せる場合は熱設計と電源設計を併せて検討する必要があります。また、Gemma 4 VLAのライセンス条件とKokoro TTSのライセンス条件はそれぞれ別建てで適用されるため、商用展開を想定する場合は事前に確認することがHugging Face側でも推奨されています。

リポジトリと事前学習済みモデルはHugging Face上で公開されており、Jetson Orin Nano Super実機があれば追試が可能です。

Hugging Face Blog

出典 Hugging Face Blog

Running a Gemma 4 VLA agent fully on a Jetson Orin Nano Super