MF Blogs 便利ツール
複数のワークフローブロックが中央の再生ノードから延びる抽象的な自動化イメージ

記事

ShopifyがQwen3-32BをFine-tuningしてFlow自動化をNL生成——Python DSLで精度+22pt、コスト68%削減の実装

Shopifyは2026年4月22日、Shopify Flow向けに自然言語からワークフローを生成するエージェントの実装をエンジニアリングブログで公開しました。Qwen3-32BのFine-tuning、JSON→Python DSL変換、本番運用からの継続学習までを整理します。

0:00 0:00

Shopify Flowを自然言語で組む仕掛け

Shopifyは2026年4月22日、Shopify EngineeringShopify Flow向けの自然言語生成エージェントの実装を公開しました。Flowはマーチャントがノーコードでストア運用を自動化するツールで、従来はビジュアルビルダー上でブロックを組み立てる必要がありました。今回の取り組みは、マーチャントが自然言語で依頼した内容からFlow定義(JSON)を生成するエージェントの構築例です。

記事ではクローズドモデルベースの先代システムから、オープンウェイトモデルを自社でFine-tuningする構成への移行が中心テーマになっています。最終的には2.2倍の推論高速化、68%のコスト削減を達成しつつ、先代以上の精度を出したと報告されています。

自然言語からQwen3-32BがPython DSLを経由してShopify Flow JSONを生成するパイプライン図

画像引用元: Shopify Engineering

Qwen3-32BをベースにしたFine-tuning

ベースモデルにはQwen3-32Bを採用しています。学習データは、匿名化された本番ワークフロー7,000件超をリバースエンジニアリングして作成したものが中核です。さらに上位のLLMを使って「こういう自動化を作りたい」というマーチャント視点の自然言語リクエストを合成し、ワークフローとペアになる形で教師データとして整備しています。

記事では単純な模倣学習ではなく、リクエスト→Flow定義のマッピングを一貫したタスクとして扱い、シンタックスとセマンティクスの両面で評価・学習を回したことが強調されています。既存の閉じたモデルを呼び出すだけでは難しかった領域のチューニングを、自社でコントロールできる構成に載せ替えた点がポイントです。

JSONを一度Pythonにする中間表現

興味深いのが、Flowのネイティブ形式であるJSONドメイン固有言語を、いったんPython風のDSLに変換して学習・推論に使っている点です。JSONのままだとLLMが括弧やカンマの位置でシンタックスエラーを起こしやすく、生成精度が落ちやすい構造でした。

記事によれば、Python DSL経由に切り替えることでシンタックス正確性が22ポイント、セマンティック正確性が13ポイント向上したとされています。LLMが普段から多く見ているPython風の表現のほうが、ネストや分岐、比較演算の表現で失敗しにくいためです。

生成したPython DSLは、双方向のトランスパイラを通して元のJSON形式へ戻されます。運用面では以下のような流れが想定されます。

# 自然言語入力:
# 「注文金額が100ドルを超える顧客にVIPタグを付けて、Slackに通知する」

when(order.total > 100).then(
    tag_customer("VIP"),
    notify_slack(channel="#sales-alerts")
)

上記のようなDSLコードを生成してから、ラウンドトリップ可能なJSONへ機械的に変換し、Flowランタイムへ投入する設計です。学習中もDSL空間で評価することで、無意味な括弧ずれによる失敗を評価ノイズから排除できています。

活性化率で気付いた「合成評価の罠」

Shopifyは初期の本番投入時、ベンチマーク上は同等以上に見えた新モデルがアクティベーション率(実際にマーチャントがワークフローを利用開始する率)が35%低下した事実に直面しました。オフラインの合成評価では見えていなかったギャップで、記事では「合成評価が本番の体感差を隠してしまう」ことへの警鐘として丁寧に共有されています。

これを受けて、本番環境での実会話ログを継続的に学習シグナルへ戻すフライホイールを構築したと説明されています。オフラインのベンチマークだけでなく、本番で何が使われて何が使われなかったかをループに組み込むことで、モデルを本番KPIへ合わせ込んでいく運用です。

実装で得られた数値

最終的な結果として紹介されている数値は以下のとおりです。

  • 推論速度: 先代クローズドモデル比で2.2倍
  • コスト: 68%削減
  • 精度: ベンチマーク上で先代を上回る
  • シンタックス正確性: DSL化で**+22ポイント**
  • セマンティック正確性: DSL化で**+13ポイント**

自社でのFine-tuningが意味を持つのは、こうしたドメイン固有のDSLや形式制約がある場面だという主張が裏付けとして示されている格好です。オープンウェイトモデルを前提にすると、レイテンシ・コスト・精度のチューニングを同時に進められるという現場感のある整理になっています。

今週のエージェント実装系トピックとの位置づけ

同週には、OpenAIがChatGPTにworkspace agentsを導入し、Google Cloud Next 2026でGemini Enterprise Agent PlatformGitHub Copilot for Jiraの強化なども発表されました。プラットフォーム側の発表が相次ぐなかで、Shopifyの事例は自社プロダクトのDSLに合わせてモデルを作り込む実装寄りの知見が詰まっており、オープンウェイトモデルのFine-tuningを検討するチームには参考になる内容です。