トラック全景 · OPC ATLAS

AI Eval & Observability:Agent 時代に最初に立ち上がった企業向けの確実な需要

Braintrust が $36M ARR。LangChain には LangSmith が無料同梱。残された余地はどこか。

更新日 2026-05-10

Eval と Observability は、AI 領域でもっとも「企業が黙って払う」に近いカテゴリだ。2024 年の Agent 本番投入ラッシュ以降、Fortune 500 はどこも同じ悩みを抱えている——デモは動くが本番で壊れ、原因がわからない。2026 年時点で横軸の勝者はほぼ確定した:Braintrust、LangSmith、Arize Phoenix、Langfuse の 4 社が $10-50M ARR レンジを分け合っている。だがその下の縦軸——法務 eval(引用検証)、医療 eval(臨床安全)、Agent eval(マルチステップ軌跡採点)——はほぼ白紙。横軸で 19 番目の汎用 tracing ツールを作る余地はもうないが、特定縦軸で 50 社 × $30K の eval ビジネスは $1.5M ARR の堅実な事業として完全に成立する。

市場は明確に層別化されている。(1) トレース + ダッシュボード層:LangSmith は LangChain に標準同梱(ARR ~$10M+、LangChain 利用者のデフォルト)、Langfuse はセルフホスト + SOC2 で OSS 勝者(GitHub 1 万 star 超、クラウドで ARR ~$5M+)、Arize は OSS の Phoenix を導線にエンタープライズ版へ送る形(累計調達 $70M+、ARR ~$30M 業界推定)。(2) Eval 先行層:Braintrust は 2025 年に ~$36M ARR を突破、公表顧客に OpenAI、Notion、Vercel、Stripe、Brex、Airtable。「プロンプトに対するユニットテスト」をオフライン eval として展開している。(3) 特化層:Patronus AI($17M シリーズ A、ハルシネーション Lit Tests)、Comet Opik(OSS eval + tracing 統合)、Weights & Biases Weave(CoreWeave 傘下、WandB に無料同梱)。2026 年の三大潮流:(a) 横軸各社が Agent 軌跡評価と tool-use 採点に一斉に向かっており、Agent 側ではまだ勝者不在;(b) 課金が per-trace から per-eval-run + per-seat へ移行中、eval を切り口にする方が筋がいい;(c) 縦軸 TAM は巨大かつ未占有——病院は LangSmith を買わない、HIPAA 準拠で臨床ドメインレーターを抱えた臨床安全 bench を求めている。
Braintrust 2023 · シリーズ A · ARR ~$36M (2025)
OpenAI · Notion · Vercel · Stripe · Brex · Airtable

「プロンプトのユニットテスト」から出発し、eval + observability + prompt playground までフルセット化。創業者 Ankur Goyal は Impira を Figma に売却済み——AI-native 企業への分配経路を初手で持っている。

LangSmith (LangChain) 2023 · LangChain 同梱の標準ツール
ARR ~$10M+ / 10 万 + 開発者

もっとも import される LLM フレームワーク内に標準同梱、配布そのものが堀。langchain 使用者の事実上のデフォルト observability。「十分使える」だけで勝つポジション。

Arize AI / Phoenix 2020 · シリーズ C · 累計調達 $70M+
ARR ~$30M(業界推定)

もとは表形式 ML 向け observability。2023 年に LLM へ大きく舵を切った。OSS の Phoenix を漏斗にエンタープライズ版へ送る構造。伝統的 Fortune 500 顧客に強い。

Langfuse 2023 · YC W23 · 2025 シリーズ A
GitHub 1 万 + star / ARR ~$5M+

セルフホスト可能な OSS LLM observability。クラウドを信用しない工程チームのデフォルト。SOC2 + ISO 27001、EU・規制業界の本命。

Patronus AI 2023 · シリーズ A · $17M 調達
Lit Tests / ハルシネーション検出

Meta 出身研究者 Anand Kannappan、Rebecca Qian らが創業。切り口はハルシネーション + RAG 正答性のプリビルトテスト群。エンタープライズのコンプラ部門へ販売、工程チームの土俵で戦わない。

Comet Opik 2024 · OSS
Eval + tracing 統合

MLOps 老舗の Comet が 2024 年に投入し自社の縄張りを守る一手。無料 + OSS、Comet 既存 5 万 + ユーザーへの配布力。横軸の中で最も防御的。

Weights & Biases Weave 2024 · CoreWeave 傘下
WandB 利用者には無料同梱

WandB の LLM observability。2025 年に親会社が CoreWeave に約 $1.7B で買収された。WandB に無料同梱というバンドルは独立ツール側にとってもっとも致命的な打ち手。

Helicone 2022 · YC W23 · OSS
ARR ~$2M / 9 万 + 開発者

プロキシ型 observability——SDK 不要、1 行で導入。インディー開発者向けの価格、黒字、小チーム、コミュニティ評価が高いダークホース。

🟢 青信号・参入候補
縦軸の業界専門家にすぐ声をかけられる

法務:引用検証ができる元弁護士を呼べる。医療:トリアージ安全性を採点できる臨床医を呼べる。営業:アウトリーチ品質を採点できる SDR マネージャを呼べる。横軸ツールの弱点はドメインレーター不在——そこがあなたの入口になる。

Agent 軌跡を読める工程出身

深夜 2 時に LangGraph のマルチステップ Agent をデバッグした人なら分かる——痛みは「プロンプトを記録したい」ではなく「ステップ 4 で登録していないツールを幻覚した、なぜ」だ。マルチステップ軌跡評価は未解決領域、次の $50M+ ARR 枠が空いている。

DevTools を売れる、または工程ブランドがある

Eval の意思決定者は技術側:工程責任者が評価、セキュリティが通し、財務が払う。PLG は実際にボトムアップで使われている場合のみ機能する。「XYZ for AI evals」を名乗った瞬間に負け——切り口は欠けた機能であって、カテゴリではない。

🔴 赤信号・まだ早い
横軸 LLM tracing の 19 番目を作っている

LangSmith は LangChain 同梱で無料。Braintrust は AI-native のロゴを押さえた。Arize は Fortune 500 を守る。Langfuse は OSS 圏を取った。横軸の trace + dashboard には隙間がもうない、撤退すべき。

差別化が「安い」だけ

インディー価格の底は Helicone が押さえている。CoreWeave は Weave を WandB 利用者に無料配布したばかり。eval で価格勝負は死亡フラグ——上はエンタープライズ束ね売り、下は OSS で挟まれる。

90 日以内に Fortune 500 のデザインパートナーを取れない

エンタープライズ eval はデザインパートナーシップ経由でしか売れない、コールドメールではない。あなたのネットワークで 90 日以内に Fortune 500 のロゴが $50K パイロットに署名できないなら、2 年滑走路の算数が合わない。

縦軸 eval bench(法務 / 医療 / Agent)

ドメイン専門家 + 工程共同創業者、シード前 $1M+

初期資金
$1M-3M シード前
投下時間
18-24 か月で初の $1M ARR
最初の一手
規制業界を一つ選ぶ(放射線トリアージ、臨床記録、契約レッドライン、原告 demand letter など)。最初の 90 日は 3-5 チームに張り付く。テスト作成前に 20 名以上のドメインレーターを揃える。堀はレーターネットワークで、ランナーそのものではない。
Agent 軌跡評価ツール

Agent 本番経験のある工程主導チーム

初期資金
$500K-2M シード
投下時間
12-18 か月で $500K ARR
最初の一手
OSS フレームワーク(LangGraph / CrewAI / Mastra)に一つ絞る。マルチステップ Agent 軌跡向けの eval harness——分岐比較、tool-call 採点、リトライツリー解析。OSS + ホスト型 SaaS で重い計算を課金。6 か月で週次アクティブ 1000 工程の到達を目標に。
コンプラ + 監査ログ切り口

元セキュリティ/コンプラ責任者 + 技術共同創業者

初期資金
$300K-1M 自己資金 or シード
投下時間
9-12 か月で初契約
最初の一手
規制業界(金融、医療、政府)を狙う。既存の LangSmith/Braintrust/Langfuse ログを SOC2/HIPAA/EU AI Act 監査対応レポートに変換する薄いレイヤーを出す。Big-4 コンプラ各社経由で $50K-200K/年で売る。競合は他ツールではなくコンサル工数。

読むべき記事

コミュニティ

フォロー先

関連トラック

  • AI コーディング / DevTools買い手が大きく重なる——Cursor/Codeium を買う工程チームは LangSmith/Braintrust も買う。GTM 経路を再利用できる。
  • AI セキュリティ / Red Team同じ買い手(工程/セキュリティ)、別の角度。Eval は正しさ、Red Team は敵対性。両方束ねる戦い方が最強。
  • Legal AI最大の縦軸 eval 機会——引用検証は法律 AI の最大の未解決問題。

あなたはどのタイプの起業家?

5 分・12 問・無料・あなたのタイプ+最適な 3 つのトラック

クイズへ →
← ホーム AI / Agent アトラス →