記事

IBM Research、エージェント全体を比較する「Open Agent Leaderboard」をHugging Faceで公開

IBM Researchは2026年5月18日、AIエージェントを「モデルだけでなくシステム全体」として品質とコストで比較する「Open Agent Leaderboard」をHugging Face上で公開しました。SWE-Bench VerifiedやBrowseComp+など6種のベンチマークを統一プロトコルで実行する評価フレームワーク「Exgentic」も同時にオープン化されています。

IBM Researchは2026年5月18日、Hugging Face上のブログで、AIエージェントを「モデル単体ではなくシステム全体」として比較する評価基盤「Open Agent Leaderboard」を公開しました。あわせて、評価を実行・再現するためのフレームワーク「Exgentic」と、方法論をまとめた論文も同時に公開され、すべてオープンとされています。

Open Agent Leaderboardの公開イメージ

画像引用元: Hugging Face Blog

「モデル」ではなく「エージェントシステム全体」を測る

これまでのAIベンチマークは「どのモデルがどのタスクで何点を取ったか」を出力するものが中心でした。しかし、IBM Researchは「実運用のエージェントはモデル単体ではなく、ツール、計画方法、状態管理、エラー回復方法を含むシステム全体」であり、同じモデルでも周辺の設計次第で結果もコストも大きく変わると指摘しています。

そこで、Open Agent Leaderboardはエージェントの「中身のモデル」だけでなく、それを取り囲むシステム構成も含めて比較対象にしています。各エントリーは「特定のエージェント実装＋特定のモデル」の組み合わせで登録され、6つのベンチマークを通した平均成功率に加え、タスクあたりの平均コストも併記されます。同じモデルを採用しても、ラップしているエージェント実装が違えば、スコアと費用に明確な差が出る点を可視化する設計です。

6種類のベンチマークを統一プロトコルで実行

Open Agent Leaderboardでは、性質の異なる6種類のベンチマークが採用されています。

SWE-Bench Verified: 実コードリポジトリのバグ修正
BrowseComp+: 複雑な問いに対するWeb横断調査
AppWorld: 数百のアプリ操作を伴う個人タスクの完遂
tau2-Bench Airline & Retail: 企業ポリシーに従ったカスタマーサービス対話
tau2-Bench Telecom: ポリシーに沿ったテクニカルサポート

IBM Researchは「単独で『汎用性』を測れる指標はない」として、コーディング、オープンエンドな調査、広い行動空間、ルールに縛られた会話など、それぞれ毛色の異なるベンチマークを束ねている点を強調しています。

各ベンチマークは元々独自の入出力前提を持っていますが、Open Agent Leaderboardでは「タスク（何をするか）」「コンテキスト（何を知っているか）」「アクション（何が許されているか）」の3つで構成される統一プロトコルを導入し、すべてのエージェントが同じ形式でやり取りできるよう揃えています。これにより、ベンチマークごとの仕様差を吸収しつつ、各エージェントは自前のツールやインターフェースを保ったまま評価に参加できます。

「同じモデル・異なるエージェント」で差が出る

公開された初期結果では、上位5構成のうち上位3つが同じモデルを利用しているにもかかわらず、スコアとコストの両方で差が出るという指摘が示されています。IBM Researchはここから「エージェントの実装そのものが結果を左右する」と主張しています。

コスト差も顕著で、上位5構成のうち最も効率的なものは、最強構成と比べてタスクあたりのコストが大幅に低いとされています。Open Agent Leaderboardではすべての構成について、品質と費用を散布図上でプロットできるため、「最高スコア」だけでなく「実運用に耐える費用対効果」での比較が可能です。

オープンソース化された「Exgentic」フレームワーク

評価実行と再現を担うのが、同時公開のオープンソース・フレームワークExgenticです。IBM Researchは「リーダーボード、フレームワーク、論文のすべてが初日からオープン」と説明しており、外部の開発者が新しいエージェントを追加投入したり、独自のベンチマークを差し込んだりすることが想定されています。

エージェントを評価対象として追加する場合、開発者は自分のシステムを統一プロトコルに合わせて接続するだけで、6種のベンチマークを通したスコアとコストが得られる仕組みです。これにより「同じ条件で他社のエージェント構成と並べて評価する」ことが容易になります。

「汎用性（generality）」をどう測るか

IBM Researchはブログの中で「特定のタスクに合わせて作り込んだエージェントは強くなる。しかし、それらが新しい設定にそのまま投入されても通用するか、つまり一般性こそが本質的に難しい問い」と整理しています。Open Agent Leaderboardは、エージェントを多種多様な未知の設定にさらすことで、この一般性を品質とコストの両軸で定量化する位置づけです。

IBM Researchはあわせて「現時点ですべての一般性をカバーできているわけではないが、エージェント設計が結果を左右する程度を可視化できる」と述べ、コミュニティからの新しいエージェント投入や追加ベンチマークの提案を呼びかけています。

まとめ：エージェント評価が「モデル比較」から「システム比較」へ

Open Agent Leaderboardの公開は、AI評価の関心が「最強モデル探し」から「実運用に耐えるエージェントシステム探し」に移りつつあることを示しています。同じモデルを使ってもエージェントの作り次第で結果が変わるという論点は、GoogleやNVIDIAなどの直近の発表が前提にしている「エージェント前提のインフラ整備」とも整合します。

オープンソースとして公開されたExgenticを通じて、各社の独自エージェントが同じ条件下で評価される基盤が整いつつあります。今後、追加されるエージェントとベンチマークによって、エージェント設計の「効く差分」がより明確になっていく見込みです。