記事

Microsoft、自社開発の基盤モデル3種を発表 — 音声・画像でOpenAIに対抗

MicrosoftのAI部門がMAI-Transcribe-1、MAI-Voice-1、MAI-Image-2の3つの基盤モデルを発表しました。OpenAIやGoogleへの直接的な対抗策として注目されています。

Microsoft AI部門が独自モデルを投入

MicrosoftのAI部門（MAI）は2026年4月2日、自社開発の基盤モデル3種を発表しました。音声文字起こし、音声生成、画像生成のそれぞれに特化したモデルで、MAI部門のCEOであるMustafa Suleyman氏のもとで開発が進められてきたものです。

Suleyman氏がMAI部門を設立してからわずか6か月でのリリースとなります。これまでOpenAIとの提携を通じてAI技術を展開してきたMicrosoftが、独自の基盤モデルで正面からGoogleやOpenAIに対抗する姿勢を鮮明にしたと報じられています。

MAI-Transcribe-1: 25言語対応の高速文字起こし

MAI-Transcribe-1は、音声をテキストに変換する文字起こしモデルです。トランスフォーマーベースのテキストデコーダーと双方向オーディオエンコーダーを組み合わせた構成で、MP3、WAV、FLACの各形式に対応し、最大200MBのファイルを処理できます。

バッチ処理での文字起こし速度は、既存のAzure Fast Transcriptionの2.5倍を実現しているとのことです。25言語でベンチマーク測定が行われ、すべての言語でMicrosoftは優れた精度を主張しています。オープンソースコミュニティで広く使われてきたOpenAIのWhisperモデルに対抗する位置づけです。

MAI-Voice-1: 1秒で60秒分の音声を生成

MAI-Voice-1はテキストから音声を生成するモデルで、1秒で60秒分の自然な音声を生成できると報じられています。長文コンテンツでも話者のアイデンティティを維持し、Microsoft Foundryを通じて数秒の音声サンプルからカスタムボイスを作成する機能も提供されます。

リアルタイム性と品質を両立する設計で、ポッドキャスト、オーディオブック、カスタマーサポートなど幅広い用途が想定されています。

MAI-Image-2: 画像生成の新モデル

3つ目のMAI-Image-2は画像生成モデルです。詳細な仕様はまだ限定的ですが、既存のDALL-Eシリーズに依存しない、Microsoft独自の画像生成基盤として位置づけられています。

3モデルはいずれもMicrosoft Foundryと新設のMAI Playgroundから利用可能です。

「AI自給自足」への布石

Suleyman氏はこの取り組みを「AI self-sufficiency（AI自給自足）」と位置づけており、OpenAIへの依存を減らしつつ独自のAI技術力を確立する意図がうかがえます。OpenAIとの提携関係を維持しながらも、自社でフロンティアモデルを開発するという二重路線は、AI業界のパワーバランスに影響を与える可能性があります。