Article

MiniMax M2.7がNVIDIAプラットフォームで高速化——MoEモデル特化最適化でvLLM 2.5倍・SGLang 2.7倍のスループット改善

NVIDIAはMiniMaxの新モデルM2.7をNemotron Agent ToolkitやNIMマイクロサービスで動作させ、vLLMとSGLangの専用カーネルによりスループットを大幅に向上させたと公式ブログで発表しました。エージェント志向のスパースMoEアーキテクチャの最適化事例として注目されます。

This article is not published in this language yet, so the Japanese version is shown instead.

エージェント特化MoEモデルM2.7がNVIDIAスタックで配信開始

NVIDIAは2026年4月12日、MiniMaxが公開した最新の大規模言語モデルMiniMax M2.7をNVIDIAプラットフォーム上で動作させるための最適化事例を公式ブログで公開しました。M2.7は前世代のM2.5を継承するスパースMixture-of-Experts（MoE）アーキテクチャで、総パラメータ2300億のうち1トークンあたり100億のみを活性化させる構成です。活性化率は約4.3パーセントに抑えられており、コンテキスト長は20万トークンに対応します。

NVIDIAは今回、M2.7をNemotron Agent ToolkitやNIMマイクロサービスといった同社のエージェント基盤と組み合わせ、自律型エージェントを動かすためのリファレンス構成として整理しました。複雑なツール呼び出しや長期的な思考連鎖を必要とするユースケースを想定した内容です。

MiniMaxとNVIDIAのコラボレーションを示す公式バナー

画像引用元: NVIDIA Developer Blog

vLLMとSGLangで実現したスループット向上

公式ブログによれば、推論最適化の主役となるのはvLLMとSGLangとの協業です。MoEアーキテクチャ特有のエキスパート選択と疎な行列演算を効率化するため、専用カーネルが投入されました。NVIDIAはこの最適化により、vLLMで最大2.5倍、SGLangで最大2.7倍のスループット向上を達成したと説明しています。

性能向上の主因は、活性化率4.3パーセントという疎なモデル構造に合わせてGPUの計算リソースを無駄なく割り当てるカーネルチューニングにあります。長文プロンプトや並列リクエストが多いエージェントワークロードでは、レイテンシよりもスループットが律速になりやすく、今回の最適化はそうした実運用シナリオを直接的に改善する内容です。

エージェント開発のためのリファレンススタック

NVIDIAは今回、MiniMax M2.7を中心に据えた完成度の高いエージェント開発リファレンスを提示しています。具体的には、自律型エージェントの設計を支援するNVIDIA Nemotron Agent Toolkit、コンテナ化された推論サービスを提供するNVIDIA NIM、さらに大規模なファインチューニングを担うNVIDIA NeMo Frameworkが組み合わされています。

このスタックは、研究用途から本番運用まで一貫した経路を提供することを狙いとしています。M2.7はNVIDIAのモデルカタログbuild.nvidia.comからエンドポイント経由で試せるほか、オンプレミス環境やクラウドでの自前デプロイにも対応します。エージェント開発者にとっては、モデル選定から推論基盤までを一気通貫で評価できる選択肢が増えた形です。

オープンウェイトMoEと最適化エコシステムの広がり

今回の発表は、オープンウェイトのMoEモデルが推論エコシステム全体の最適化対象として急速に広がっている流れを示しています。MiniMaxは前世代のM2.5でも長文処理とエージェント志向の設計を打ち出していましたが、M2.7では総パラメータを大規模化しつつ活性化率を低く保つ設計が一段と洗練されています。

NVIDIAがこのモデルに対してvLLMとSGLangの両方で専用カーネルを用意した点も注目されます。両フレームワークは推論用OSSとして急速に採用が進んでおり、ハードウェアベンダーとフレームワーク開発者がモデル単位で密に連携する事例が一般化しつつあります。エージェントワークロードの本格化に伴い、こうした「モデル × 推論ランタイム × アクセラレータ」の協業がさらに加速していくと見られます。