0:00 0:00
記事
Cloudflare、AI Gatewayに「支出上限」——トークンでなくドル建てで予算管理、超過時は遮断か代替モデル
Cloudflareは2026年6月5日、AI Gatewayにリアルタイムの支出上限機能を追加しました。トークン数ではなくドル建ての予算で複数プロバイダーの費用を管理でき、上限に達したらリクエストを遮断するか、代替モデルへ振り替えられます。
Cloudflareは2026年6月5日、AIへのリクエストを仲介するAI Gatewayに、リアルタイムで費用を抑える「支出上限(spend limits)」機能を追加したと発表しました。複数のAIプロバイダーにまたがる利用料金が膨らむのを防ぐための仕組みで、青天井になりがちなトークン課金に歯止めをかけます。

図版: Cloudflareの発表内容をもとに作成(出典: The Cloudflare Blog)
暴走するAI課金に「支出上限」
生成AIを業務に組み込むほど、利用料金の管理は難しくなります。リクエストのたびにトークン単位で課金され、気づけば請求額が想定を超えていた、という事態が起きやすいためです。
今回CloudflareがAI Gatewayに加えた支出上限は、こうした費用の暴走を防ぐための機能です。AI Gatewayは各リクエストの費用をモデルの料金体系にもとづいて算出し、累積の支出を設定した上限とリアルタイムで突き合わせます。使った分が一定額を超えないよう、ゲートウェイの側で見張る形です。
トークンでなくドル建てで管理
特徴は、上限をトークン数ではなく金額(ドル)で設定できる点です。従来のレート制限とは独立して動き、すべてのリクエストにわたる累積の支出額を追跡します。
開発者やチームにとっては、「今月はこのAIに何ドルまで」という現実の予算感覚そのままで制御できるのが利点です。トークン数を金額に換算して見積もる手間がなくなり、経理や予算管理の観点でも扱いやすくなります。AIの費用を、他のクラウド支出と同じ感覚で管理できるようになります。
モデルやチーム単位で柔軟に設定
上限は、さまざまな単位で細かく設定できます。モデルごと、プロバイダーごとに加えて、ユーザーやチーム、アプリケーションといった管理者が定義した独自の属性でも区切れます。
期間の区切り方も柔軟です。毎月1日や毎週月曜、深夜0時にリセットする固定の期間と、直近一定期間で見る移動式(ローリング)の両方に対応し、日次・週次・月次から選べます。組織の予算サイクルや、案件ごとの管理方針に合わせて設定できる作りになっています。
上限到達時は遮断かフォールバック
では上限に達したらどうなるのか。標準では、それ以降のリクエストをブロックします。ただし、それだけでは現場の作業が止まってしまいます。
そこでCloudflareは、Dynamic Routesという仕組みを使って、上限到達後はより安価な代替モデルへリクエストを振り替える設定も用意しました。これにより、ハードな上限で開発者の作業が完全に止まる事態を避けられます。コストを抑えつつ、業務の継続性も保てるよう配慮されています。
ID連携の予算と提供状況
さらに、Cloudflareのアクセス管理Cloudflare Accessと連携した、ID単位の予算管理も用意されています(こちらはクローズドベータ)。たとえば貢献者には月500ドル、シニアエンジニアには2000ドルといった個人ごとの予算や、チーム単位のモデル利用ポリシーを、既存のID基盤のグループに紐づけて設定できます。サービストークンを使えば、CI/CDパイプラインや自律エージェントの利用も個別に追跡できます。
支出上限は、すべてのプランの利用者を対象にオープンベータで提供が始まっています。設定はダッシュボードかAPIから行え、まずは監視モードで利用状況を把握してから段階的に制限をかけていく進め方が案内されています。AIのコストに頭を悩ませているチームは、試してみる価値がありそうです。
Your AI bill is out of control. Cloudflare can fix it now.
AI Gateway now features real-time spend limits to prevent runaway token bills across multiple AI providers. By integrating with Cloudflare Access, companies can use identity-driven budgets and policies.