賽道全景 · OPC ATLAS

AI Eval / 可觀測:Agent 時代第一個穩定的企業付費口子

Braintrust $36M ARR、LangSmith 免費內建 LangChain。小團隊還能從哪裡切?

更新於 2026-05-10

Eval 與可觀測是 AI 時代最接近「企業必付」的一類工具。2024 年 Agent 落地潮後,所有 Fortune 500 都遇到同一個問題:LLM 應用 demo 順、上線掛,沒人知道哪裡掛。2026 年橫向格局已基本確定——Braintrust、LangSmith、Arize Phoenix、Langfuse 四家在 $10-50M ARR 區間各分蛋糕,背後是完全不同的分發邏輯。下層垂直市場全是空白:法律 eval(引用準確性)、醫療 eval(臨床安全)、Agent eval(多步軌跡評分)。橫向再開 19 家通用 tracing 工具已經捲不出來,但一個聚焦垂直的 eval 業務收 50 家客戶 × $30K,就是 $1.5M ARR 的乾淨生意,紅杉根本不看,但完全能跑通。

格局已經分層。(1) Trace + dashboard 層:LangSmith 內嵌 LangChain(~$10M+ ARR,LangChain 用戶預設選項),Langfuse 是開源王者,自託管 + SOC2 雙線打——GitHub 1 萬 star、雲上 ARR ~$5M+。Arize 用 Phoenix 開源做漏斗,進企業版 ML observability 套件——已融 $70M+,行業估 ARR ~$30M。(2) Eval 優先層:Braintrust 據業內報導 2025 年破 ~$36M ARR,公開用戶包含 OpenAI、Notion、Vercel、Stripe、Brex、Airtable;切入點是「給 prompt 寫單元測試」的離線 eval 流程。(3) 專項層:Patronus AI($17M A 輪,Lit Tests 防幻覺)、Comet Opik(開源 eval + tracing 合體)、Weights & Biases Weave(WandB 重新打包,MLOps 老玩家護城)。2026 三大趨勢:(a) 橫向工具集體衝 Agent 軌跡評估與工具呼叫評分,Agent 這邊沒有明確贏家,機會窗口還開著;(b) 計費從 per-trace 遷移到 per-eval-run + 按席次,eval 反而是更好的切入點;(c) 垂直 TAM 巨大且無人認領——醫院買臨床安全 eval 不會買 LangSmith,他們需要 HIPAA 合規 + 臨床領域評審員的專用 bench。
Braintrust 2023 · A 輪 · ~$36M ARR (2025)
OpenAI / Notion / Vercel / Stripe / Brex / Airtable

從「prompt 單元測試」切入,已擴展到 eval + observability + prompt playground 全家桶。創辦人 Ankur Goyal 把 Impira 賣給 Figma,自帶 AI-native 團隊的管道。

LangSmith (LangChain) 2023 · LangChain 內建預設工具
~$10M+ ARR / 10 萬 + 開發者

內嵌 import 量最大的 LLM 框架,分發即護城河。每個 langchain 使用者的預設 observability,「夠用」就夠它贏。

Arize AI / Phoenix 2020 · C 輪 · 累計融資 $70M+
ARR ~$30M(行業估)

原本做表格 ML 的 observability,2023 年硬轉 LLM。開源 Phoenix 做漏斗導流企業版。在傳統 Fortune 500 老客戶裡滲透深。

Langfuse 2023 · YC W23 · 2025 A 輪
GitHub 1 萬 + star / ARR ~$5M+

可自託管的開源 LLM observability,不信雲的工程團隊的預設選項。SOC2 + ISO 27001,歐盟/受監管行業首選。

Patronus AI 2023 · A 輪 · 融資 $17M
Lit Tests / 幻覺偵測

前 Meta 研究員 Anand Kannappan、Rebecca Qian 創辦。切入點是預置幻覺 + RAG 正確性測試集,賣給企業合規部門,不捲工程團隊。

Comet Opik 2024 · 開源
Eval + tracing 合體

Comet(MLOps 老玩家)2024 年推 Opik 守自己的邊界。免費 + 開源,靠 Comet 已有 5 萬 + 使用者分發,是橫向工具裡防禦性最強的一家。

Weights & Biases Weave 2024 · CoreWeave 旗下
WandB 使用者免費內建

WandB 的 LLM observability 套件,2025 年隨母公司被 CoreWeave 收購(約 $1.7B)。綁 WandB 免費送,是幹獨立工具最致命的一招。

Helicone 2022 · YC W23 · 開源
~$2M ARR / 9 萬 + 開發者

代理式 observability——一行程式碼替換,無 SDK 侵入。獨立開發者友善定價,獲利、小團隊、社群認可度最高的「黑馬」。

🟢 綠燈 · 考慮進場
你有一個垂直行業 + 能調到領域專家

法律:找得到能審引用準確性的前律師。醫療:找得到能評估分診安全性的臨床醫師。銷售:能拉到 SDR 主管打外聯品質分。橫向工具的死穴是沒有領域評審員池,這就是你的口子。

你做工程產品 + 能讀懂 Agent 軌跡

凌晨 2 點 debug 過 LangGraph 多步 agent 的人都知道,痛點不是「日誌我的 prompt」,是「第 4 步為什麼幻覺了一個我沒註冊的工具」。多步軌跡評估是沒解決的問題,下一個 $50M+ ARR 的位子大開著。

你會賣 DevTools 或有工程品牌

Eval 是技術型買家:工程主管評、安全過、財務付。PLG 在你 bottom-up 真有人用時才行。如果你的定位是「XYZ for AI evals」,你已經輸了——切入點必須是一個缺失的功能,而不是一個品類。

🔴 紅燈 · 先別進
你在做第 19 家通用 LLM tracing 工具

LangSmith 在 LangChain 裡免費內建。Braintrust 拿下 AI-native 品牌客戶。Arize 守 Fortune 500。Langfuse 占了開源生態。橫向 trace + dashboard 已經沒縫了,停手。

你的差異化是「我更便宜」

獨立開發者價格底線 Helicone 占了。CoreWeave 剛把 Weave 免費打包送給 WandB 使用者。Eval 裡光打價格戰是死路:上面被企業打包碾壓,下面被開源吊打。

你 90 天拉不到一家 Fortune 500 設計合作夥伴

企業 eval 靠 design partnership 賣,不是冷郵件。如果你的關係網 90 天內拉不出一個 Fortune 500 logo 簽 $50K pilot,2 年跑道的數學算不過來。

垂直 eval bench(法律/醫療/Agent)

領域專家 + 工程聯創,$100 萬 + 種子前

啟動資金
$100 萬-300 萬種子前
時間投入
18-24 個月到首個 $1M ARR
第一動作
選一個受監管的垂直(放射科分診、臨床記錄、合約審核、原告 demand letter)。前 90 天蹲點 3-5 個領域團隊。在寫測試集之前先攢 20 + 領域評審員。護城河是評審員網路,不是 runner 本身。
Agent 軌跡評估工具

工程主導 + 之前真做過 Agent 上線的團隊

啟動資金
$50 萬-200 萬種子
時間投入
12-18 個月到 $500K ARR
第一動作
鎖定一個開源框架(LangGraph、CrewAI、Mastra)。專做多步 agent 軌跡的 eval harness——分支對比、工具呼叫打分、retry tree 分析。開源 + 託管 SaaS 收重算力費。目標 6 個月 1000 週活躍工程師。
合規 + 審計軌跡切入

前安全/合規主管 + 技術聯創

啟動資金
$30 萬-100 萬自籌或種子
時間投入
9-12 個月到首單
第一動作
盯受監管行業(銀行、醫療、政府)。把已有 LangSmith/Braintrust/Langfuse 日誌包裝成 SOC2/HIPAA/歐盟 AI Act 審計就緒報告。靠四大合規諮詢合作分發,單約 $50K-200K/年。你競爭的是諮詢人天,不是其他工具。

值得一讀

社群

關注誰

相關賽道

  • AI 開發 / DevTools買家重合度極高——買 Cursor/Codeium 的工程團隊也買 LangSmith/Braintrust。GTM 管道複用。
  • AI 安全 / Red Team同一類買家(工程/安全),不同切面。Eval 管對錯,Red Team 管對抗。兩個合起來打才是最強姿勢。
  • Legal AI最大的單一垂直 eval 機會——引用準確性是法律 AI 的頭號未解難題。

想知道你屬於哪種創業者?

5 分鐘 · 12 題 · 免費 · 測出你的畫像 + 最匹配的 3 條賽道

開始測驗 →
← 返回首頁 AI / Agent 全景圖 →