AIセキュリティとレトロフューチャーをモチーフにした0DINスキャナーのビジュアル

記事

Mozillaが0DIN AIセキュリティスキャナーをオープンソース化——GARAKベースに179種のプローブと35種の脆弱性ファミリを搭載

Mozillaは2026年4月9日、AIシステム向けのオープンソースセキュリティスキャナーを0DINチームから公開しました。NVIDIAのGARAKフレームワークをベースに、179種類のコミュニティプローブと35の脆弱性ファミリ、Placeholder InjectionやHex Recipe Bookなど6つの新手法のプローブを搭載しています。

MozillaがAIセキュリティスキャナーをApache 2.0で公開

Mozillaは2026年4月9日、同社のAIセキュリティ専門チーム「0DIN」から、AIシステム向けオープンソースセキュリティスキャナーを公開したと発表しました。ライセンスはApache 2.0で、GitHub上の0din-ai/ai-scannerリポジトリから誰でも入手できます。

0DINは以前から独自のバグバウンティプログラムを運営し、大規模言語モデル（LLM）やマルチモーダルモデルに対する新しい攻撃手法を収集してきました。今回公開されたスキャナーには、そのバグバウンティを通じて蓄積された知見が179種類のコミュニティプローブ（検査項目）として組み込まれており、35種類の脆弱性ファミリをカバーしています。実運用で見つかった攻撃が製品にそのままフィードバックされている点が特徴です。

NVIDIA GARAKをベースにGUI・スケジューリング・レポートを追加

スキャナーの土台になっているのは、NVIDIAが公開しているオープンソースLLMセキュリティ評価フレームワーク「GARAK」です。GARAKは研究者向けのコマンドラインツールとして広く使われていますが、企業の運用現場で使うには継続的な実行管理や結果の可視化に手間がかかるという課題がありました。

0DIN AIセキュリティスキャナーを紹介するMozillaのイメージ

画像引用元: Mozilla Blog

0DINの新スキャナーはGARAKの上にグラフィカルインターフェース、自動スケジューリング、企業向けレポート機能を追加しています。セキュリティ担当者がCLIに頼らず、Webダッシュボードから定期スキャンのスケジュールを設定したり、結果をエンジニアリングマネージャーや監査向けにまとめたレポートとして出力したりできるようになります。研究ツールから運用ツールへの橋渡しをする役割を担う形です。

Placeholder InjectionやHex Recipe Bookなど新攻撃手法6種を公開

今回特に注目されるのが、これまで未公開だった6種類の新しい攻撃手法のプローブが同梱されている点です。公開された名前は「Placeholder Injection」「Incremental Table Completion」「Technical Field Guide」「Chemical Compiler Debug」「Correction」「Hex Recipe Book」の6つで、それぞれ異なるアプローチでモデルのガードレールを迂回する技術が使われています。

たとえば「Incremental Table Completion」は、モデルに段階的に表を埋めさせることで拒否応答を回避させる手口として知られ、「Hex Recipe Book」は危険な手順を16進数エンコードで提示して検知をすり抜けるアプローチです。こうした攻撃手法は、0DINのバグバウンティに参加するセキュリティ研究者が新たに発見したものであり、名称と概要が公開されたことでディフェンダー側もテストを実行しやすくなります。評価には、0DINがオープンソースで公開している計測ライブラリ「JEF（Jailbreak Evaluation Framework）」が使われており、JEF側も今回のリリースに合わせて大型アップデートが行われています。

無償のエンタープライズ評価とマネージド版も提供

Mozillaは同時に、企業向けのAI導入に対して無償のセキュリティ評価サービスを提供することを明らかにしました。自社でデプロイしているチャットボットや社内向けAIアシスタントに対して、0DINのスキャナーを使った評価を受けられる仕組みで、まずは現状把握からAIリスク管理を始めたい組織にとって入り口として機能します。

より高度な運用を求める利用者向けには、約500種類の「事前開示プローブ（pre-disclosure probes）」を搭載したエンタープライズ版マネージドエディションも用意されています。これは0DINがバグバウンティで受領したものの、まだ公開していない最新の攻撃手法に対する検査プローブで、公開前に自社モデルの耐性をテストできる点が大きな利点です。オープンソース版で基本的なスキャン能力を広く開放しつつ、先行情報にアクセスしたい企業向けには商用プランを提供するという、Mozillaらしい二層構造の提供形態となっています。