左側の散らばったノイズ点が、右側で色付きの整ったブロック群へと整列し、下部のGPUチップへ流れ込む抽象イラスト

記事

NVIDIA、拡散型テキストモデル「DiffusionGemma」をローカル高速化——H100で毎秒1000トークン、自己回帰比で約4倍

NVIDIAは2026年6月10日、Google DeepMindの実験的オープンモデルDiffusionGemmaを自社GPU向けに最適化したと発表しました。単語を1つずつではなくまとめて並列生成する拡散方式により、H100単体で毎秒1000トークン、同等の自己回帰モデル比で約4倍の速度を示すとしています。

NVIDIAは2026年6月10日、Google DeepMindの実験的なオープンモデル「DiffusionGemma」を自社のGPUプラットフォーム向けに最適化したと発表しました。文章を1単語ずつ順番に作るのではなく、画像生成のような拡散方式でまとめて生成する点が、従来の言語モデルと大きく異なります。

DiffusionGemmaとNVIDIAのロゴを並べたビジュアル。下部に光の筋が走る

画像引用元: NVIDIA Blog

単語を並列で生成する拡散方式

DiffusionGemmaは、Gemma4のアーキテクチャを土台にしたモデルです。総パラメータは260億で、1ステップあたり38億を動かす構成だとされています。通常の言語モデルが単語を逐次的に出力するのに対し、DiffusionGemmaは複数の単語を並列に生成し、文章をブロック単位でまとめて作ります。

仕組みは画像生成の拡散モデルに似ており、ノイズの状態から徐々に整った出力へと「デノイズ」していきます。NVIDIAによると、1ステップで最大256トークンを同時に処理できるとされています。逐次生成の制約から解放される点が、この方式の核心です。

GPUと相性が良い「演算律速」

NVIDIAがこのモデルを高速化できる理由は、処理の性質にあります。従来の自己回帰モデルはメモリ帯域に縛られる「メモリ律速」になりやすい一方、DiffusionGemmaの並列処理は計算量で決まる「演算律速」になります。これはまさにGPUが得意とする領域だと同社は説明しています。

そのためGPUアーキテクチャとの噛み合わせが良く、大きな性能向上につながるとしています。アルゴリズムの特性とハードウェアの強みが一致したことで、ローカル環境でも実用的な速度を引き出せるという主張です。

長い文章を作る場面でも、トークンを1つずつ待つ必要がないため、生成にかかる時間を圧縮しやすくなります。チャットの応答やコード補完のように待ち時間が体験を左右する用途では、この差が効いてくると考えられます。

具体的な処理速度

性能面では、いくつかの数字が示されています。NVIDIAによると、H100単体で毎秒1000トークン、DGX Sparkで毎秒150トークン、DGX Stationでは最大で毎秒2000トークンに達するとされています。

全体としては、同等の自己回帰モデルと比べておよそ4倍速いとしています。ローカルで動かす生成モデルとしては高い数値で、応答待ちの体感を大きく変えられる水準です。実際の速度は環境やタスクによって変わるため、手元での検証が前提になります。

DGX SparkとDGX Stationのように据え置き型の環境から、GeForce RTXを積んだPCまで、想定する動作環境にも幅があります。手元の機材に合わせて選べるため、用途や規模に応じた使い分けがしやすい点も実務では効いてきそうです。

クラウド不要のローカル運用

DiffusionGemmaは、NVIDIA RTX PROワークステーション、DGX Spark、DGX Station、そしてGeForce RTX GPUといった環境で、すべてローカルに動かせます。クラウドへの送信もトークン単位の課金も発生しない点が、ローカル運用の利点として強調されています。

モデルはApache 2.0の寛容なライセンスでオープンウェイトとして公開され、Hugging FaceのTransformers、vLLM、Unslothでの利用に対応しています。すでに使い慣れた推論フレームワークから扱えるため、検証を始めるまでの手間も小さく抑えられます。

拡散方式の言語モデルはまだ実験的な位置づけですが、GPUの強みを引き出しやすいという特性は、ローカル生成の選択肢を広げる可能性があります。手元のGPUで最先端の生成方式を試したい開発者にとって、注目しておきたい動きです。