MF Blogs Tools
クラウドから3台のターミナルへ並列に処理が分岐していく抽象的なイメージ

Article

Mistralが「Vibe」にリモートエージェント機能を追加、Mistral Medium 3.5(128B・256k)でSWE-Bench Verified 77.6%を達成

Mistralは2026年4月29日、コーディングエージェントプラットフォーム「Vibe」にクラウド実行のリモートエージェント機能を追加し、同時に新モデル「Mistral Medium 3.5」を発表しました。128Bデンスで256kコンテキスト、SWE-Bench Verifiedで77.6%、`τ³-Telecom`で91.4を記録。Le Chatの「Work mode」やAPI料金(入力1.5ドル/出力7.5ドル/100万トークン)も整理します。

0:00 0:00

This article is not published in this language yet, so the Japanese version is shown instead.

ローカルからクラウドへ「テレポート」できるコーディングエージェント

Mistral AIは2026年4月29日、同社のコーディングエージェントプラットフォームVibeに、クラウドサンドボックス上で非同期・並列に動くリモートエージェントを追加したと発表しました。新機能は、ユーザーが手元の作業を中断してもクラウド側でセッションが回り続ける「テレポート」運用を狙ったもので、CLIやLe Chatから起動できます。

公式ブログは**「coding sessions can work through long tasks while you’re away」**と書いており、ユーザーが席を外している間も同じランタイム上でタスクを継続することを前提とした設計だと位置付けています。

クラウドを介して3台のターミナルへ並列に処理が分岐するイメージ

画像引用元: Mistral AI News

リモートエージェントはGitHubLinearJiraSlackと連携し、自律的なコード生成とプルリクエスト管理を行います。ユーザー側はリアルタイムで進行を確認でき、ローカルセッションをそのままクラウドに引き上げて続行できる仕組みも備えるとされます。

Mistral Medium 3.5:128Bデンスで256kコンテキスト

リモートエージェントを駆動する新モデルがMistral Medium 3.5です。Mistralの説明によると、主要スペックは次のとおりです。

項目
アーキテクチャデンス128B
コンテキスト長256kトークン
統合タスク指示追従/推論/コーディングを単一の重みで処理
SWE-Bench Verified77.6%
τ³-Telecomスコア91.4
推論努力(reasoning effort)リクエスト単位で設定可能
セルフホスト最低4 GPUから

Mistralは「instruction-following, reasoning, and coding in a single set of weights」と表現しており、コーディング特化と汎用指示追従を1つの重みでこなせる点を売りに置いています。リクエストごとに推論努力(effort)を切り替えられる設計は、課金単価の制御にも直結する論点です。

Le Chatの「Work mode」:複雑タスクのための新モード

同日付でLe ChatにもWork modeという新機能が追加されました。これは複数のツールを横断して呼び出すエージェントモードで、用途として以下が示されています。

  • 横断的なリサーチ統合(複数ソースを束ねて要約)
  • ツールを並列呼び出しする多段タスク
  • 機微な操作にはユーザー承認ゲートを経由する設計

Le ChatのWork modeは、ChatGPTのDeep ResearchやAnthropicのClaudeで進む**「ツールを呼ぶエージェント・チャット」の系譜に乗りつつ、「並列ツール呼び出しの可視化」と「承認ゲート」を明示的に設計に入れた点が特徴です。Mistralとしては、Vibeのコード作業エージェントとLe Chatの業務作業エージェント**の2方向で、エージェント体験を分けて訴求する形になります。

API料金と提供範囲

Mistral Medium 3.5のAPI料金は入力100万トークンあたり1.5ドル/出力100万トークンあたり7.5ドルと案内されています。利用経路は次のとおりです。

セルフホスト前提で最低4 GPU、というラインは、社内SaaSやプライバシー要件が厳しいユーザー向けの導入ハードルを示すサインでもあります。クラウドAPIで触ってから、必要に応じてオンプレに移すという運用が現実的でしょう。

評価の論点:エージェントベンチでの77.6%は何を意味するか

SWE-Bench Verifiedは、実際のGitHub Issue/PRをもとにモデルのコード修正能力を測るベンチマークです。77.6%は2026年初頭以降のフロンティアモデル群が出してくる水準と並ぶ数字で、128Bデンスというサイズに対しては効率的な値と読めます。一方、ベンチマークの再現性に関する論点は別記事の「AI評価コスト」が新たな計算ボトルネックに、Hugging FaceがHALで4万ドル・GAIA1回2829ドルの実測を公開でも触れたとおり、シングルラン値とpass^kでの安定性ギャップは別途評価する価値があります。

τ³-Telecomの91.4は、テレコム領域のエージェント評価でMistralが最近力を入れている領域です。リモートエージェントが回す実運用環境での失敗率は、こうした業種別ベンチで見える「型にハマったタスク」よりも厳しい可能性があるため、自社ワークフローでの並走評価が前提になります。リモートエージェントの導入を検討する組織にとって、最初の数週間は承認ゲートの粒度設計監査ログの取り回しが運用の成否を決めそうです。