記事

NVIDIA、AIインフラ評価の新指標「トークン単価」を提唱——GPU時間単価では見えないBlackwellの優位性を解説

NVIDIAはAIインフラの総所有コスト（TCO）を評価する指標として「100万トークンあたりのコスト」を提唱。Blackwell世代がHopperの35分の1の単価を実現する仕組みを公式ブログで解説しています。

「AIトークンファクトリー」としてのデータセンター

NVIDIAは2026年4月15日、公式ブログで「Rethinking AI TCO: Why Cost per Token Is the Only Metric That Matters」と題した記事を公開しました。従来のデータセンターがデータの保存・検索・処理を担っていたのに対し、生成AI時代のデータセンターは「AIトークンファクトリー」へと進化しているという主張です。

記事の核心は、AI推論インフラを評価する際に「GPU1時間あたりの料金」や「FLOPSあたりのコスト」ではなく、「100万トークンあたりのコスト」を基本指標にすべきだというものです。ビジネスの最終的なアウトプットがトークンである以上、その生成効率こそがインフラ投資の判断基準になるとNVIDIAは述べています。

「推論の氷山」——表面のスペックでは見えないコスト構造

NVIDIAはこの考え方を「Inference Iceberg（推論の氷山）」という概念で説明しています。水面上に見えるのはGPUの時間単価やピークFLOPS、HBM容量といったカタログスペックです。一方、水面下にはネットワーク効率、ソフトウェア最適化、メモリ管理、ストレージのスループットなど、実際のトークン生成コストを大きく左右する要素が隠れています。

推論の氷山の概念図

画像引用元: NVIDIA Blog

表面的なGPU時間単価だけを比較すると安価に見えるインフラでも、トークンスループットが低ければ実際の運用コストはかえって高くつきます。NVIDIAが提示しているのは、ハードウェアとソフトウェアの協調設計（コデザイン）を通じて水面下の効率を徹底的に高めるアプローチです。

Blackwell vs. Hopper——GPU単価2倍でもトークン単価は35分の1

記事中で最も具体的な数字として挙げられているのが、Blackwell世代とHopper世代の比較です。Blackwellは1GPU時間あたりのコストがHopperの約2倍になりますが、トークンスループットは65倍に達するため、100万トークンあたりのコストはHopperの35分の1になるとしています。

この数字が示すのは、インフラ選定においてGPU単価だけを見る従来のやり方がいかに実態と乖離しているかという点です。NVIDIAは計算・ネットワーク・ソフトウェアを横断した「エクストリーム・コデザイン」によってこの差を生み出していると説明しており、単体のチップ性能だけでなくシステム全体の設計思想が重要であることを強調しています。

クラウドやオンプレミスでの評価にどう活かすか

NVIDIAが提唱するトークン単価の考え方は、クラウドでAI推論サービスを調達する企業にとっても、自社でGPUクラスタを運用するチームにとっても参考になる視点です。とくに推論ワークロードが中心のサービス——チャットボット、コード生成、要約エンジンなど——では、GPU時間あたりの料金表だけで比較するのではなく、実際のリクエストに対してどれだけのトークンを生成できるかを計測する必要があります。

NVIDIAとしてはBlackwell世代の訴求が主な目的ですが、指標の考え方自体はベンダーを問わず応用できます。自社の推論パイプラインで100万トークンあたりのコストを計測し、GPUの稼働率やバッチサイズの調整でどこまで改善できるかを検証してみるのが、この記事から得られる最も実践的な示唆でしょう。