AI Eval / 可觀測賽道全景 2026 | LangSmith、Braintrust、Arize、Langfuse 拆解

01 · 2026 市場現況

格局已經分層。(1) Trace + dashboard 層：LangSmith 內嵌 LangChain（~$10M+ ARR，LangChain 用戶預設選項），Langfuse 是開源王者，自託管 + SOC2 雙線打——GitHub 1 萬 star、雲上 ARR ~$5M+。Arize 用 Phoenix 開源做漏斗，進企業版 ML observability 套件——已融 $70M+，行業估 ARR ~$30M。(2) Eval 優先層：Braintrust 據業內報導 2025 年破 ~$36M ARR，公開用戶包含 OpenAI、Notion、Vercel、Stripe、Brex、Airtable；切入點是「給 prompt 寫單元測試」的離線 eval 流程。(3) 專項層：Patronus AI（$17M A 輪，Lit Tests 防幻覺）、Comet Opik（開源 eval + tracing 合體）、Weights & Biases Weave（WandB 重新打包，MLOps 老玩家護城）。2026 三大趨勢：(a) 橫向工具集體衝 Agent 軌跡評估與工具呼叫評分，Agent 這邊沒有明確贏家，機會窗口還開著；(b) 計費從 per-trace 遷移到 per-eval-run + 按席次，eval 反而是更好的切入點；(c) 垂直 TAM 巨大且無人認領——醫院買臨床安全 eval 不會買 LangSmith，他們需要 HIPAA 合規 + 臨床領域評審員的專用 bench。

02 · 代表公司

Braintrust 2023 · A 輪 · ~$36M ARR (2025)

OpenAI / Notion / Vercel / Stripe / Brex / Airtable

從「prompt 單元測試」切入，已擴展到 eval + observability + prompt playground 全家桶。創辦人 Ankur Goyal 把 Impira 賣給 Figma，自帶 AI-native 團隊的管道。

LangSmith (LangChain) 2023 · LangChain 內建預設工具

~$10M+ ARR / 10 萬 + 開發者

內嵌 import 量最大的 LLM 框架，分發即護城河。每個 langchain 使用者的預設 observability，「夠用」就夠它贏。

Arize AI / Phoenix 2020 · C 輪 · 累計融資 $70M+

ARR ~$30M（行業估）

原本做表格 ML 的 observability，2023 年硬轉 LLM。開源 Phoenix 做漏斗導流企業版。在傳統 Fortune 500 老客戶裡滲透深。

Langfuse 2023 · YC W23 · 2025 A 輪

GitHub 1 萬 + star / ARR ~$5M+

可自託管的開源 LLM observability，不信雲的工程團隊的預設選項。SOC2 + ISO 27001，歐盟/受監管行業首選。

Patronus AI 2023 · A 輪 · 融資 $17M

Lit Tests / 幻覺偵測

前 Meta 研究員 Anand Kannappan、Rebecca Qian 創辦。切入點是預置幻覺 + RAG 正確性測試集，賣給企業合規部門，不捲工程團隊。

Comet Opik 2024 · 開源

Eval + tracing 合體

Comet（MLOps 老玩家）2024 年推 Opik 守自己的邊界。免費 + 開源，靠 Comet 已有 5 萬 + 使用者分發，是橫向工具裡防禦性最強的一家。

Weights & Biases Weave 2024 · CoreWeave 旗下

WandB 使用者免費內建

WandB 的 LLM observability 套件，2025 年隨母公司被 CoreWeave 收購（約 $1.7B）。綁 WandB 免費送，是幹獨立工具最致命的一招。

Helicone 2022 · YC W23 · 開源

~$2M ARR / 9 萬 + 開發者

代理式 observability——一行程式碼替換，無 SDK 侵入。獨立開發者友善定價，獲利、小團隊、社群認可度最高的「黑馬」。

03 · 進場前的紅綠燈

🟢 綠燈 · 考慮進場

你有一個垂直行業 + 能調到領域專家

法律：找得到能審引用準確性的前律師。醫療：找得到能評估分診安全性的臨床醫師。銷售：能拉到 SDR 主管打外聯品質分。橫向工具的死穴是沒有領域評審員池，這就是你的口子。

你做工程產品 + 能讀懂 Agent 軌跡

凌晨 2 點 debug 過 LangGraph 多步 agent 的人都知道，痛點不是「日誌我的 prompt」，是「第 4 步為什麼幻覺了一個我沒註冊的工具」。多步軌跡評估是沒解決的問題，下一個 $50M+ ARR 的位子大開著。

你會賣 DevTools 或有工程品牌

Eval 是技術型買家：工程主管評、安全過、財務付。PLG 在你 bottom-up 真有人用時才行。如果你的定位是「XYZ for AI evals」，你已經輸了——切入點必須是一個缺失的功能，而不是一個品類。

🔴 紅燈 · 先別進

你在做第 19 家通用 LLM tracing 工具

LangSmith 在 LangChain 裡免費內建。Braintrust 拿下 AI-native 品牌客戶。Arize 守 Fortune 500。Langfuse 占了開源生態。橫向 trace + dashboard 已經沒縫了，停手。

你的差異化是「我更便宜」

獨立開發者價格底線 Helicone 占了。CoreWeave 剛把 Weave 免費打包送給 WandB 使用者。Eval 裡光打價格戰是死路：上面被企業打包碾壓，下面被開源吊打。

你 90 天拉不到一家 Fortune 500 設計合作夥伴

企業 eval 靠 design partnership 賣，不是冷郵件。如果你的關係網 90 天內拉不出一個 Fortune 500 logo 簽 $50K pilot，2 年跑道的數學算不過來。

04 · 三條進入路徑

垂直 eval bench（法律/醫療/Agent）

領域專家 + 工程聯創，$100 萬 + 種子前

啟動資金: $100 萬-300 萬種子前
時間投入: 18-24 個月到首個 $1M ARR
第一動作: 選一個受監管的垂直（放射科分診、臨床記錄、合約審核、原告 demand letter）。前 90 天蹲點 3-5 個領域團隊。在寫測試集之前先攢 20 + 領域評審員。護城河是評審員網路，不是 runner 本身。

Agent 軌跡評估工具

工程主導 + 之前真做過 Agent 上線的團隊

啟動資金: $50 萬-200 萬種子
時間投入: 12-18 個月到 $500K ARR
第一動作: 鎖定一個開源框架（LangGraph、CrewAI、Mastra）。專做多步 agent 軌跡的 eval harness——分支對比、工具呼叫打分、retry tree 分析。開源 + 託管 SaaS 收重算力費。目標 6 個月 1000 週活躍工程師。

合規 + 審計軌跡切入

前安全/合規主管 + 技術聯創

啟動資金: $30 萬-100 萬自籌或種子
時間投入: 9-12 個月到首單
第一動作: 盯受監管行業（銀行、醫療、政府）。把已有 LangSmith/Braintrust/Langfuse 日誌包裝成 SOC2/HIPAA/歐盟 AI Act 審計就緒報告。靠四大合規諮詢合作分發，單約 $50K-200K/年。你競爭的是諮詢人天，不是其他工具。

05 · 哪種創業者最順手