0:00 0:00
記事
Amazon、AI生成リサーチ報告の事実確認に新手法——ベンチ精度を60.8%から90.9%へ
Amazon Scienceは2026年6月3日、AIが生成する長文リサーチ報告の事実確認に関する研究を公開しました。人間のラベルを固定の正解とせず、AIが反証して見直す『監査してから採点』する手法で、ベンチマークの精度を60.8%から90.9%へ高めたとしています。
Amazon Scienceは2026年6月3日、AIが生成する長文の「ディープリサーチ報告」の事実確認に取り組んだ研究を公開しました。多数の情報源を統合した報告の主張が、本当に元の文献で裏付けられているかをどう検証するかという課題に対し、AmazonのAGIグループが新しい評価の枠組みを示しています。

図版: Amazon Scienceの発表内容をもとに作成(出典: Amazon Science)
AI生成リサーチ報告の事実確認は難しい
検索を組み合わせたAIは、いまや多くの情報源をまとめた長く洗練された報告を生成できます。専門家の分析に近い見た目になってきましたが、その価値は主張が元の文献で裏付けられているかにかかっています。
ところが、こうした報告の事実確認は簡単ではありません。報告の主張は複数の情報源をまたいで組み立てられ、前後の文脈を必要とし、どの単一の文書にも書かれていない比較を含むこともあります。ひとつの文と出典を突き合わせれば済む、という単純な作業にはならないのです。
ベンチ作りがモデル作りと同じくらい難しい
Amazonの研究チームがまず取り組んだのは、より強力なAIファクトチェッカーを作ることでした。しかし、その性能を測るには評価用のベンチマークが必要であり、このベンチマークの構築自体が、モデルを作るのと同じくらい難しいと分かったといいます。
背景には、何を「正解(グラウンドトゥルース)」とみなすかという根本的な問題があります。人間の専門家が付けたラベルも、常に正しいとは限りません。チームは、正解を固定したデータセットとして扱う発想そのものを見直す必要に迫られました。
「監査してから採点」するプロトコル
そこで導入されたのが、「監査してから採点する(audit-then-score)」プロトコルです。人間の専門家によるラベルを動かせない正解として扱うのではなく、AIのファクトチェッカーが反証となる証拠と根拠を添えて、ベンチマークの答えに異議を申し立てられるようにしました。
異議が出ると、監査役が挑戦者の証拠と元の答えを比較します。挑戦者のほうが強い根拠を示していれば、採点の前にベンチマーク自体を修正します。正解を一度きりの確定物ではなく、人とモデルと証拠が協力して育てる「過程」として捉え直した点が特徴です。
精度は60.8%から90.9%へ
この手法の効果は数字に表れています。当初、専門家がラベル付けしたベンチマークは、答えが分かっている隠れたテストセットに対して60.8%の精度しかありませんでした。それが「監査してから採点」を4ラウンド繰り返した後には、90.9%まで上昇したとしています。
あわせて2つの資産も公開されました。システム同士を比較するための共有テストセット「DeepFact-Bench」と、ファクトチェックを行うシステム本体「DeepFact-Eval」です。後者は、土台のモデルにGPT-4.1を使って83.4%の精度を達成したとされています。
ディープリサーチを使う人への意味
この研究が示すのは、AIの出力を評価する「ものさし」そのものを、いかに信頼できるものにするかという視点です。土台となるベンチマークが甘ければ、どれだけ高性能なファクトチェッカーでも正しく評価できません。
AIのディープリサーチ機能を業務に使う人にとっても、これは示唆に富みます。生成された報告をそのまま信じるのではなく、主張と出典を突き合わせて確かめる工程が欠かせないという裏づけになるからです。AIが書いた長文ほど、最後に人と仕組みで裏取りする姿勢が重要になります。
Ground truth is a process, not a dataset
Automatically fact-checking long, AI-generated research reports poses new challenges — including benchmarking.