AI Eval & Observability 全景 2026｜LangSmith・Braintrust・Arize・Langfuse

01 · 2026 年市場の現状

市場は明確に層別化されている。(1) トレース + ダッシュボード層：LangSmith は LangChain に標準同梱（ARR ~$10M+、LangChain 利用者のデフォルト）、Langfuse はセルフホスト + SOC2 で OSS 勝者（GitHub 1 万 star 超、クラウドで ARR ~$5M+）、Arize は OSS の Phoenix を導線にエンタープライズ版へ送る形（累計調達 $70M+、ARR ~$30M 業界推定）。(2) Eval 先行層：Braintrust は 2025 年に ~$36M ARR を突破、公表顧客に OpenAI、Notion、Vercel、Stripe、Brex、Airtable。「プロンプトに対するユニットテスト」をオフライン eval として展開している。(3) 特化層：Patronus AI（$17M シリーズ A、ハルシネーション Lit Tests）、Comet Opik（OSS eval + tracing 統合）、Weights & Biases Weave（CoreWeave 傘下、WandB に無料同梱）。2026 年の三大潮流：(a) 横軸各社が Agent 軌跡評価と tool-use 採点に一斉に向かっており、Agent 側ではまだ勝者不在；(b) 課金が per-trace から per-eval-run + per-seat へ移行中、eval を切り口にする方が筋がいい；(c) 縦軸 TAM は巨大かつ未占有——病院は LangSmith を買わない、HIPAA 準拠で臨床ドメインレーターを抱えた臨床安全 bench を求めている。

02 · 注目企業

Braintrust 2023 · シリーズ A · ARR ~$36M (2025)

OpenAI · Notion · Vercel · Stripe · Brex · Airtable

「プロンプトのユニットテスト」から出発し、eval + observability + prompt playground までフルセット化。創業者 Ankur Goyal は Impira を Figma に売却済み——AI-native 企業への分配経路を初手で持っている。

LangSmith (LangChain) 2023 · LangChain 同梱の標準ツール

ARR ~$10M+ / 10 万 + 開発者

もっとも import される LLM フレームワーク内に標準同梱、配布そのものが堀。langchain 使用者の事実上のデフォルト observability。「十分使える」だけで勝つポジション。

Arize AI / Phoenix 2020 · シリーズ C · 累計調達 $70M+

ARR ~$30M（業界推定）

もとは表形式 ML 向け observability。2023 年に LLM へ大きく舵を切った。OSS の Phoenix を漏斗にエンタープライズ版へ送る構造。伝統的 Fortune 500 顧客に強い。

Langfuse 2023 · YC W23 · 2025 シリーズ A

GitHub 1 万 + star / ARR ~$5M+

セルフホスト可能な OSS LLM observability。クラウドを信用しない工程チームのデフォルト。SOC2 + ISO 27001、EU・規制業界の本命。

Patronus AI 2023 · シリーズ A · $17M 調達

Lit Tests / ハルシネーション検出

Meta 出身研究者 Anand Kannappan、Rebecca Qian らが創業。切り口はハルシネーション + RAG 正答性のプリビルトテスト群。エンタープライズのコンプラ部門へ販売、工程チームの土俵で戦わない。

Comet Opik 2024 · OSS

Eval + tracing 統合

MLOps 老舗の Comet が 2024 年に投入し自社の縄張りを守る一手。無料 + OSS、Comet 既存 5 万 + ユーザーへの配布力。横軸の中で最も防御的。

Weights & Biases Weave 2024 · CoreWeave 傘下

WandB 利用者には無料同梱

WandB の LLM observability。2025 年に親会社が CoreWeave に約 $1.7B で買収された。WandB に無料同梱というバンドルは独立ツール側にとってもっとも致命的な打ち手。

Helicone 2022 · YC W23 · OSS

ARR ~$2M / 9 万 + 開発者

プロキシ型 observability——SDK 不要、1 行で導入。インディー開発者向けの価格、黒字、小チーム、コミュニティ評価が高いダークホース。

03 · 参入前の青信号と赤信号

🟢 青信号・参入候補

縦軸の業界専門家にすぐ声をかけられる

法務：引用検証ができる元弁護士を呼べる。医療：トリアージ安全性を採点できる臨床医を呼べる。営業：アウトリーチ品質を採点できる SDR マネージャを呼べる。横軸ツールの弱点はドメインレーター不在——そこがあなたの入口になる。

Agent 軌跡を読める工程出身

深夜 2 時に LangGraph のマルチステップ Agent をデバッグした人なら分かる——痛みは「プロンプトを記録したい」ではなく「ステップ 4 で登録していないツールを幻覚した、なぜ」だ。マルチステップ軌跡評価は未解決領域、次の $50M+ ARR 枠が空いている。

DevTools を売れる、または工程ブランドがある

Eval の意思決定者は技術側：工程責任者が評価、セキュリティが通し、財務が払う。PLG は実際にボトムアップで使われている場合のみ機能する。「XYZ for AI evals」を名乗った瞬間に負け——切り口は欠けた機能であって、カテゴリではない。

🔴 赤信号・まだ早い

横軸 LLM tracing の 19 番目を作っている

LangSmith は LangChain 同梱で無料。Braintrust は AI-native のロゴを押さえた。Arize は Fortune 500 を守る。Langfuse は OSS 圏を取った。横軸の trace + dashboard には隙間がもうない、撤退すべき。

差別化が「安い」だけ

インディー価格の底は Helicone が押さえている。CoreWeave は Weave を WandB 利用者に無料配布したばかり。eval で価格勝負は死亡フラグ——上はエンタープライズ束ね売り、下は OSS で挟まれる。

90 日以内に Fortune 500 のデザインパートナーを取れない

エンタープライズ eval はデザインパートナーシップ経由でしか売れない、コールドメールではない。あなたのネットワークで 90 日以内に Fortune 500 のロゴが $50K パイロットに署名できないなら、2 年滑走路の算数が合わない。

04 · 3 つの入り口

縦軸 eval bench（法務 / 医療 / Agent）

ドメイン専門家 + 工程共同創業者、シード前 $1M+

初期資金: $1M-3M シード前
投下時間: 18-24 か月で初の $1M ARR
最初の一手: 規制業界を一つ選ぶ（放射線トリアージ、臨床記録、契約レッドライン、原告 demand letter など）。最初の 90 日は 3-5 チームに張り付く。テスト作成前に 20 名以上のドメインレーターを揃える。堀はレーターネットワークで、ランナーそのものではない。

Agent 軌跡評価ツール

Agent 本番経験のある工程主導チーム

初期資金: $500K-2M シード
投下時間: 12-18 か月で $500K ARR
最初の一手: OSS フレームワーク（LangGraph / CrewAI / Mastra）に一つ絞る。マルチステップ Agent 軌跡向けの eval harness——分岐比較、tool-call 採点、リトライツリー解析。OSS + ホスト型 SaaS で重い計算を課金。6 か月で週次アクティブ 1000 工程の到達を目標に。

コンプラ + 監査ログ切り口

元セキュリティ/コンプラ責任者 + 技術共同創業者

初期資金: $300K-1M 自己資金 or シード
投下時間: 9-12 か月で初契約
最初の一手: 規制業界（金融、医療、政府）を狙う。既存の LangSmith/Braintrust/Langfuse ログを SOC2/HIPAA/EU AI Act 監査対応レポートに変換する薄いレイヤーを出す。Big-4 コンプラ各社経由で $50K-200K/年で売る。競合は他ツールではなくコンサル工数。

05 · 相性が良い起業家タイプ