記事

Ai2が「EMO」を公開——12.5%のエキスパートだけで動くMoEモデル、文書単位の事前学習で創発的モジュール性を実現

Allen Institute for AIが2026年5月8日、新しいMixture of Experts言語モデル「EMO」をHugging Face Blogで公開しました。1兆トークンで事前学習した1B-active・14B-totalパラメーターのMoEで、文書境界をシグナルにエキスパートの専門化を促し、わずか12.5%のエキスパートで全体性能の97%程度を維持できる設計が特徴です。

Allen Institute for AI（Ai2）が2026年5月8日、新しいMixture of Experts（MoE）言語モデル「EMO（Emergent Modularity）」をHugging Faceのブログで公開しました。1兆トークンで事前学習した1B-active・14B-totalパラメーターのMoEで、推論時にエキスパートの一部だけを使っても性能を大きく落とさない「創発的モジュール性」を備えるのが特徴です。モデル本体・コード・技術レポートはオープンに公開されています。

EMOモデルの概念を示す抽象図

画像引用元: Hugging Face Blog

12.5%のエキスパートで全体性能を維持

EMOの中核的な性能特性は、エキスパートの一部だけを有効にしてもモデル全体の能力をかなり保てる点にあります。Ai2の発表によれば、128個ある総エキスパート数のうち25%（32個）だけを使った場合の性能低下は絶対値でおよそ1%、12.5%（16個）まで絞った場合でもおよそ3%にとどまります。

標準的なMoEではエキスパートを部分的に使うと性能が急激に劣化する一方、EMOは緩やかな低下にとどまるとされています。これは推論時のメモリ消費を抑えつつ、特定タスク向けに必要なエキスパートだけを動かす運用が現実的に成立することを意味します。

文書単位のエキスパートプールという学習手法

EMOがこの性質を獲得できた背景には、「Document-Level Expert Pooling」と呼ばれる学習手法があります。事前学習時に、同一文書内のすべてのトークンを共通のエキスパートプールから選択させることで、文書ごとに使うエキスパートに一貫性を持たせる設計です。

具体的には、ルーターが文書内トークンのエキスパート選好を平均化し、最も使われるエキスパートをその文書の共有プールとして選びます。プールサイズは学習中にランダムにサンプリングされ、推論時に異なるサブセットサイズに対応できるよう柔軟性を保つ仕組みです。

ロードバランシングはグローバルで適用

通常のMoEでは、各バッチ内でエキスパートに均等に負荷が分散するようなロードバランシング正則化を入れますが、これをそのまま入れるとモジュール性の獲得を阻害します。EMOではロードバランシングを「複数文書をまたぐグローバル」な単位で適用することで、文書内の一貫性とエキスパート全体の利用バランスの両立を図っています。

文書単位ではエキスパート選択に偏りを許す一方、コーパス全体ではすべてのエキスパートが均等に使われるよう調整するアプローチで、これが各エキスパートに自然な「専門領域」が生まれる仕組みを支えています。

エキスパートが意味的なドメインに自己組織化

学習結果として、EMOのエキスパートは「健康・医療」「ニュース報道」「米国政治・選挙」「映画・音楽」のような意味的に解釈可能な領域に自己組織化されたと報告されています。一方、標準的なMoEでは、エキスパートが「前置詞」「固有名詞」「コピュラ動詞」「定冠詞」のような表層的な特徴で分かれる傾向があり、両者の専門化のレベルが大きく異なります。

意味的なクラスタリングが起きることで、特定タスクに必要なエキスパートを少数の事例から特定しやすくなる利点もあるとされています。技術レポートでは、Few-shotの実例を1件渡すだけでタスク固有のエキスパート群を見つけられると説明されています。

公開された資料と関連ツール

Ai2は今回のリリースで、研究者・実装者が利用しやすい形で関連資料をまとめています。

種類	リンク
モデル	Hugging Face Collections
技術レポート	allenai.org/papers/emo
コード	github.com/allenai/EMO
インタラクティブ可視化	emovisualization.netlify.app

既存のEasy-EPなどのプルーニング手法とも互換性があり、MoEのメモリ・精度トレードオフをこれまでより良いPareto Frontierに押し出せると報告されています。

今後の方向性

Ai2は今後の研究方向として、より良いエキスパートサブセットの選択・組み合わせ、フルモデルの挙動を壊さずに個別モジュールを更新する手法、モジュール構造を活用した解釈性・制御性の向上などを挙げています。大規模スパースモデルのデプロイや適応の容易化も期待されており、リソース制約のある環境でのMoE活用を後押しする可能性があります。

オープンソースで公開された点も含め、研究コミュニティでの追試や応用が今後広がっていくとみられます。MoEの実装に関心のある開発者にとっては、文書単位のプーリングという設計上のアイデア自体が他のアーキテクチャへの示唆になりうる発表です。