0:00 0:00
Article
NVIDIA Dynamo、エージェント推論向けのフルスタック最適化を公開——KVキャッシュ11.7倍の偏りに「agent hints」で応える
NVIDIAは2026年4月17日、エージェント推論向けに最適化したDynamoの新機能を公開しました。KVキャッシュのRead-to-Write比11.7倍という偏りを前提に、4段階メモリ階層、グローバルFlash Indexer、agent hintsを組み合わせた設計です。
エージェント推論は「書き一回・読み多数」の世界
NVIDIAは2026年4月17日、推論フレームワークDynamoに対するフルスタック最適化の詳細を開発者向けブログで公開しました。対象とするのは、チャット単発のユースケースではなく、ツール連携やマルチターンのループが前提となるエージェントワークロードです。
NVIDIAが提示したのは、エージェント運用ではKVキャッシュへのアクセスが「書き一回・読み多数」の極端な偏りを示すという観測結果です。ブログでは、1回書いたキャッシュブロックが平均11.7回読み戻されるというケースを挙げ、従来のラウンドロビン配置や単純なキャッシュ管理では非効率になりやすいことを示しています。Stripeが1週間に1,300件以上のプルリクエストをエージェント経由で生成している例も引用し、開発者ツール領域での負荷増大を背景に説明しました。

画像引用元: NVIDIA Developer Blog
Agent hintsで「推論プラン」を渡す
Dynamoはv1/chat/completions、v1/messages、v1/responsesなど複数プロトコルを受け付けるマルチプロトコル対応に加えて、エージェント用の拡張として「agent hints」を導入しました。ハーネス側が推論スケジューラに対して、優先度、期待される出力長、キャッシュ保持ポリシーなどを構造化して伝える仕組みです。
たとえばシステムプロンプトやツール定義のように、再利用頻度が高いブロックは長めに保持する、推論ログのように一度使ったら捨てるブロックは積極的に解放する、といった方針をハーネスが明示的に指示できます。AutoGPT的なループで無駄な再計算を減らすための「プラン情報」を、インフラ側へ自然に渡せるようにした設計です。
グローバルFlash Indexerと4段階メモリ階層
エージェント配置の中核となるのが、KVキャッシュの所在を全ワーカー横断で追跡するグローバルFlash Indexerです。リクエストが来た際に「どのワーカーにどのプレフィックスのキャッシュがあるか」をDynamoが把握し、キャッシュミスとデコード負荷の合計が最小になる配置を選びます。
ストレージ側は、GPUメモリ、CPUメモリ、ローカルNVMe、クラスター共有ストレージの4段階で構成されるメモリ階層です。ライトスルー方式でKVブロックを下段にも書き出し、ワーカーをまたいだ再利用を可能にしています。高価値なプレフィックスは一度だけ計算されれば、他のワーカーからも読み出せる前提です。これによって、長いシステムプロンプトや共有ツール定義のトークンコストが実質的に償却されます。
TTLと優先度に基づくキャッシュ保持
キャッシュの破棄戦略にも踏み込んだ変更が入りました。優先度ベースのエビクションとTTL駆動の保持を組み合わせることで、ツール呼び出しで会話がいったん止まっている間も、重要なブロックが誤って追い出されないように守れます。
セッション単位のタグ付けで、持続的な文脈と一時的なブロック(サブエージェントや推論ループ、要約処理で生まれるもの)を区別できるのも実運用に効いてきそうです。現場ではエージェントが複数並行で動くほど、キャッシュの「寿命管理」が応答速度とコストを左右します。Dynamoは長年培ったGPUスケジューリングのノウハウを、エージェント時代の推論スタックに当てはめ直した格好です。
ブログではさらに、Claude CodeやCodexのような自律実行型のコーディングエージェントが、従来のチャットUIと大きく異なる負荷プロファイルを持つことが強調されています。ツールの呼び出しと長い文脈の保持が前提になるため、GPU側の最適化は「1リクエストあたりの速さ」よりも「セッションをまたいだ全体のコスト」に重心が移ります。NVIDIAが自社プラットフォームをこの方向に合わせて再設計してきていることは、推論インフラを選定する開発チームにとっても示唆が大きい動きです。
Full-Stack Optimizations for Agentic Inference with NVIDIA Dynamo
Coding agents are starting to write production code at scale. Stripe’s agents generate 1,300+ PRs per week. Ramp attributes 30% of merged PRs to agents. Spotify reports 650+ agent-generated PRs per…