Article

H companyの「Holo3」がコンピュータ操作ベンチマークで78.85%を達成——10Bパラメータでフロンティアモデルに迫る

H companyは2026年4月1日、コンピュータ操作AIエージェント「Holo3」をHugging Faceで公開しました。OSWorld-Verifiedで78.85%を達成し、GPT 5.4やClaude Opus 4.6を上回るスコアをわずか10Bアクティブパラメータで実現しています。

This article is not published in this language yet, so the Japanese version is shown instead.

H companyは2026年4月1日、コンピュータ操作に特化したAIエージェント「Holo3」をHugging Face上で公開しました。デスクトップ操作のベンチマークであるOSWorld-Verifiedで**78.85%**を達成し、GPT 5.4やClaude Opus 4.6といったフロンティアモデルを上回るスコアを記録しています。

注目すべきは、この結果をわずか10Bのアクティブパラメータ(総パラメータ数は122B)で実現している点です。大規模モデルと比べて推論コストを大幅に抑えながら、業界最高水準の性能を達成しています。

Holo3のベンチマーク比較。OSWorldスコアで他モデルを上回っている 画像引用元: Hugging Face Blog

Holo3とは何か

Holo3は、人間がPCで行う操作をAIが代行するための「コンピュータ使用エージェント」です。マウスのクリック、テキスト入力、メニューの選択、複数アプリケーション間の切り替えなど、GUIベースの操作を画面のスクリーンショットを見ながら自律的に実行します。

H companyはこの分野に継続的に取り組んでおり、2026年2月の「Holo2-235B」ではUIローカライゼーションで業界をリードし、3月の「Holotron-12B」では高スループットな推論を実現していました。Holo3はその集大成として、性能とコスト効率の両面で大きく前進したモデルです。

モデルはApache 2ライセンスで公開されており、Hugging Face上のモデルページからウェイトをダウンロードできます。また、H companyのサイトから無料の推論APIも利用可能です。

エージェンティック学習フライホイール

Holo3の性能を支えているのは、H companyが「エージェンティック学習フライホイール」と呼ぶ独自の訓練手法です。

この手法は**知覚(Perception)と意思決定(Decision-Making)**の2つを軸にした継続的なフィードバックループで構成されています。まず人間の操作例と生成された指示をもとに合成ナビゲーションデータを作成し、次にシナリオを拡張して予期しない状況への対応力を高めます。最後に、高度なデータフィルタリングと強化学習を組み合わせてパフォーマンスを最大化します。

Holo3の学習パイプライン。合成データ生成から強化学習までの流れ 画像引用元: Hugging Face Blog

このサイクルを繰り返すことで、モデルは新しいUIやワークフローに対する汎化能力を獲得していきます。単にスクリーンショットを見てクリック位置を予測するだけでなく、タスク全体の文脈を理解して複数ステップの操作を計画的に実行できる点が、従来のアプローチとの違いです。

合成環境ファクトリー

訓練に使われるデータの品質を確保するために、H companyは「合成環境ファクトリー(Synthetic Environment Factory)」と呼ばれる仕組みを構築しています。

合成環境ファクトリーで生成されたさまざまなWebアプリケーションの例 画像引用元: Hugging Face Blog

これは、エンタープライズ向けのWebアプリケーションやSaaSツールを模した環境を自動生成するシステムです。コーディングエージェントがシナリオ仕様を読み取り、Webサイトをスクラッチで構築します。生成された環境にはタスクの検証スクリプトも付属しており、エージェントの操作結果を端から端まで自動で検証できます。

実際のエンタープライズ環境には無数のUIパターンが存在するため、限られた手動作成のデモ環境だけでは訓練データが不足します。合成環境ファクトリーはこの問題を解決し、難易度を段階的に設定した大量のタスクを自動で用意できる点に強みがあります。

ベンチマーク結果の詳細

Holo3はOSWorld-Verifiedで**78.85%**を記録しました。このベンチマークはデスクトップ環境でのタスク完了率を測定するもので、コンピュータ使用エージェントの標準的な評価基準として使われています。

さらにH companyは、独自の「H Corporate Benchmarks」の結果も公開しています。これは486個のマルチステップ実世界タスクで構成されており、以下の4カテゴリに分かれています。

E-commerce: オンライン販売に関する操作タスク
Business Software: 業務ソフトウェアの操作タスク
Collaboration: 複数ユーザーでの連携タスク
Multi-App: 複数アプリケーションをまたぐ複合タスク

特にMulti-Appタスクは、たとえば「PDFから機器価格を取得し、各従業員の残予算を確認して、承認・却下のメールを個別に送信する」といった、複数のアプリケーションを行き来する複雑なワークフローが含まれています。Holo3はこうした複合タスクでも、より大規模なモデルを上回るスコアを出しています。

コスト効率が意味すること

Holo3の10Bアクティブパラメータという数字は、コスト面で大きな意味を持ちます。

GPT 5.4やClaude Opus 4.6のようなフロンティアモデルをAPI経由で使う場合、1タスクあたりの推論コストは無視できない水準になります。一方でHolo3は、オープンウェイトとして公開されているため、自前のGPUで推論を実行できます。パラメータ数が小さいぶんハードウェア要件も低く、エンタープライズでの大規模デプロイにおいてコスト優位性が出やすい設計です。

「コンピュータ操作の自動化」は、RPAの延長線上にある領域ですが、AIエージェントによるアプローチはGUIの変更に対してはるかに柔軟に対応できます。Holo3のようなオープンモデルが実用的な性能を示し始めたことで、この分野への参入障壁は今後さらに下がっていくと考えられます。