NVIDIAのCUDA 13.3を象徴するタイル状GPU演算ブロックの抽象アート

記事

NVIDIA、CUDA 13.3を公開——C++向けTileプログラミング、CUDA Python 1.0、CompileIQで最大15%高速化

NVIDIAは2026年5月26日、CUDA Toolkit 13.3を公開しました。C++向けCUDA Tileプログラミング、セマンティックバージョニング採用のCUDA Python 1.0、GEMMやAttentionで最大15%高速化するコンパイラ自動チューニング『CompileIQ』、Numba CUDA MLIRバックエンドなどが追加されています。

NVIDIAは2026年5月26日、CUDA Toolkit 13.3を公開しました。C++向けのTileプログラミングを主要GPUアーキテクチャに広げ、CUDA Pythonを1.0としてセマンティックバージョニング保証付きで安定化、コンパイラ自動チューニング『CompileIQ』で最大15%の高速化を実現したと公式ブログが伝えています。

CUDA 13.3を表すNVIDIA公式の抽象的なタイル状GPU演算ブロックのビジュアル

画像引用元: NVIDIA Developer Blog

C++向け『CUDA Tile』が主要GPUアーキ全対応

注目度が高いのが、C++向けのCUDA Tileプログラミングの拡張です。タイルベースのカーネル開発は、これまでPython中心に提供されてきましたが、13.3ではCompute Capability 9.0（NVIDIA Hopper）GPUを含むサポート対象の全アーキテクチャに広がりました。これにより、低レベルのGPU詳細をTileプログラミングが自動管理し、移植性の高い高速カーネルを書きやすくなります。

これまでHPC・AIの最前線では、CUDAカーネルの最適化が「人手で書く・架空でない世代別チューニング」に依存しがちでした。Tileプログラミングは、共有メモリやスレッドブロックの割り当てを抽象化し、コンパイラとランタイム側に最適化判断を委ねる方向の設計です。実プロダクションでは、C++既存コードベースに段階的に導入できる点が、置き換え障壁を下げる要素になります。

NVIDIAはあわせて、NVCCとNVRTCのC++23完全対応、NVRTCに同梱される標準CUDA C++ヘッダ、NVCCへのnvprune統合などコンパイラ周りの改善も発表しました。

CUDA Python 1.0：セマンティックバージョニングと『チェックポイント』

CUDA Python 1.0では、エコシステム全体にセマンティックバージョニングが導入されました。これにより、メジャー版でのみ破壊的変更が入り、マイナーは機能追加、パッチはバグ修正と明示的に分けられます。主要コンポーネントとバージョンは次のとおりです。

cuda.core 1.0.0: CUDAランタイムへのPythonicインターフェース。green contexts、プロセスチェックポイント、プロセス間GPUメモリ共有をサポート
cuda.compute 1.0.0: CCCLの並列アルゴリズム（sort、scan、reduce、transform、unique、histogram、top-k）を公開
cuda.bindings 13.3.0: CUDA C APIへの低レベルPythonバインディング
cuda-pathfinder 1.6: CUDAコンポーネント探索ユーティリティ

新機能で実運用に効きそうなのがプロセスチェックポイント（Linuxのみ）で、長時間実行ジョブの耐障害性と、共有クラスタでのプリエンプション対応を可能にします。Green contextsはGPUのSMを互いに重ならない複数グループに分割でき、レイテンシ重視のワークロードを切り出せます。プロセス間共有はゼロコピーでGPUメモリをPythonプロセス間で扱える機能で、エージェントシステムやマルチプロセスの推論パイプラインに刺さる仕様です。

インストールはPyPIから1行で済みます。

pip install cuda-python cuda-cccl numba-cuda-mlir[cu13]

Numba CUDA MLIRバックエンドで起動レイテンシを大幅短縮

Numba用の新MLIRバックエンドも公開されました。MLIRとNVVMの現行ツールチェーンで書かれており、JITコンパイル時間を実カーネルの幾何平均で約1.4倍高速化したとされています。

特にインパクトが大きいのがカーネル起動レイテンシの短縮で、2〜3.5倍、スカラー引数の多いカーネルでは最大約17倍の短縮が報告されています。NVIDIAは「numba.cudaのドロップイン置き換え」と説明しており、import文の変更だけで切り替えられる位置付けです。多数の小さいカーネルを高頻度で起動するワークロード（強化学習の環境ステップやリアルタイム推論）では、移行コストに見合うリターンが出やすい変更です。

CompileIQ：進化的アルゴリズムでGEMM・Attentionを最大15%高速化

新登場のCompileIQは、進化的・遺伝的アルゴリズムをベースにカーネルごとに最適なコンパイラ設定を探索するフレームワークです。NVIDIAは公式ブログで、Tritonで書かれた既にチューニング済みのAttentionやCUTLASS GEMMに対しても最大15%の高速化が確認されたと記述しています。

「既にチューニングされたものから、さらに削る」性質のツールであり、汎用的なオプション最適化ではなく特定カーネルに対する深堀りが用途です。実プロダクションのモデル推論サービスや、巨大トレーニングジョブでは、わずか数%の性能改善が課金・電力に直結するため、CompileIQはROIが立つケースが多いと予想されます。

数学ライブラリとCCCL 3.3：実装の足回りも更新

数学ライブラリも幅広く強化されています。cuSPARSEはSpSV/SpSMでCSC形式に対応、混合精度・混合インデックス型のサポート追加、cusparseSpMVOp_createDescr()が2.5倍高速化されました。cuBLASはgreen contextに対応、Blackwell/Blackwell UltraでのFP4・TF32 matmul性能を改善。cuSOLVERはQDWHアルゴリズム極分解の64ビットインターフェースcusolverDnXpolarが追加されました。

CCCL 3.3では、DLPack/mdspanの相互変換、共有メモリ上の多次元ビューcuda::shared_memory_mdspan、17種類のデバイス互換乱数分布、C++26からバックポートされたcuda::std::philox4x32/cuda::philox4x64、Numpyのデフォルト乱数生成器であるcuda::pcg64の追加が並びます。新アルゴリズムとして、述語ベース探索が前バージョン比で最大7倍高速化されたcub::DeviceFind::FindIf、cub::DeviceSegmentedScan、並列二分探索cub::DeviceFind::LowerBound/UpperBound、N対Mのcub::DeviceTransformが加わっています。

運用面の改善：MPSエラー隔離、Graph再キャプチャ、低レイテンシmmap

運用面でもアップデートがあります。MPS Partial Error Isolationは、特定のクライアントへ障害を限定し、他のクライアントを巻き込まずに継続稼働させる仕組みです。Graph再キャプチャ用にcudaStreamBeginRecaptureToGraph() APIが追加され、既存グラフの更新が容易になりました。NVMLはnvmlDeviceGetRemappedRows_v2で非アクティブなremapped rowsを報告できるようになり、運用監視で有用です。mmap()サポートは、GDRCopyを必要とせずディスクリートGPUメモリへの低レイテンシCPUマッピングを提供します。

CUDA 13.3はCUDA Toolkitのダウンロードページから入手可能です。CUDA Python 1.0のセマンティックバージョニング保証により、長期保守を前提とした採用がしやすくなったこと、CompileIQで「既存カーネルにさらに削れる余地が出てきた」ことが、明日からの開発に直接効くポイントになりそうです。