AI Eval / 可观测赛道全景 2026 | LangSmith、Braintrust、Arize、Langfuse 拆解

01 · 2026 市场现状

格局已经分层。(1) Trace + dashboard 层：LangSmith 内嵌 LangChain（~$10M+ ARR，LangChain 用户默认选项），Langfuse 是开源王者，自托管 + SOC2 双线打——GitHub 1 万 star、云上 ARR ~$5M+。Arize 用 Phoenix 开源做漏斗，进企业版 ML observability 套件——已融 $70M+，行业估 ARR ~$30M。(2) Eval 优先层：Braintrust 据业内报道 2025 年破 ~$36M ARR，公开用户包括 OpenAI、Notion、Vercel、Stripe、Brex、Airtable；切入点是「给 prompt 写单元测试」的离线 eval 流程。(3) 专项层：Patronus AI（$17M A 轮，Lit Tests 防幻觉）、Comet Opik（开源 eval + tracing 合体）、Weights & Biases Weave（WandB 重新打包，MLOps 老玩家护城）。2026 三大趋势：(a) 横向工具集体冲 Agent 轨迹评估和工具调用评分，Agent 这边没有明确赢家，机会窗口还开着；(b) 计费从 per-trace 迁移到 per-eval-run + 按席位，eval 反而是更好的切入点；(c) 垂直 TAM 巨大且无人认领——医院买临床安全 eval 不会买 LangSmith，他们需要 HIPAA 合规 + 临床领域评审员的专用 bench。

02 · 代表公司

Braintrust 2023 · A 轮 · ~$36M ARR (2025)

OpenAI / Notion / Vercel / Stripe / Brex / Airtable

从「prompt 单元测试」切入，已扩展到 eval + observability + prompt playground 全家桶。创始人 Ankur Goyal 把 Impira 卖给 Figma，自带 AI-native 团队的渠道。

LangSmith (LangChain) 2023 · LangChain 内置默认工具

~$10M+ ARR / 10 万 + 开发者

内嵌 import 量最大的 LLM 框架，分发即护城河。每个 langchain 用户的默认 observability，「够用」就够它赢。

Arize AI / Phoenix 2020 · C 轮 · 累计融资 $70M+

ARR ~$30M（行业估）

原本做表格 ML 的 observability，2023 年硬转 LLM。开源 Phoenix 做漏斗导流企业版。在传统 Fortune 500 老客户里渗透深。

Langfuse 2023 · YC W23 · 2025 A 轮

GitHub 1 万 + star / ARR ~$5M+

可自托管的开源 LLM observability，不信云的工程团队的默认选项。SOC2 + ISO 27001，欧盟/受监管行业首选。

Patronus AI 2023 · A 轮 · 融资 $17M

Lit Tests / 幻觉检测

前 Meta 研究员 Anand Kannappan、Rebecca Qian 创办。切入点是预置幻觉 + RAG 正确性测试集，卖给企业合规部门，不卷工程团队。

Comet Opik 2024 · 开源

Eval + tracing 合体

Comet（MLOps 老玩家）2024 年推 Opik 守自己的边界。免费 + 开源，靠 Comet 已有 5 万 + 用户分发，是横向工具里防御性最强的一家。

Weights & Biases Weave 2024 · CoreWeave 旗下

WandB 用户免费内置

WandB 的 LLM observability 套件，2025 年随母公司被 CoreWeave 收购（约 $1.7B）。绑 WandB 免费送，是干独立工具最致命的一招。

Helicone 2022 · YC W23 · 开源

~$2M ARR / 9 万 + 开发者

代理式 observability——一行代码替换，无 SDK 侵入。独立开发者友好定价，盈利、小团队、社区认可度最高的「黑马」。

03 · 入场前的红绿灯

🟢 绿灯 · 考虑入场

你有一个垂直行业 + 能调到领域专家

法律：找得到能审引用准确性的前律师。医疗：找得到能评估分诊安全性的临床医生。销售：能拉到 SDR 主管打外联质量分。横向工具的死穴是没有领域评审员池，这就是你的口子。

你做工程产品 + 能读懂 Agent 轨迹

凌晨 2 点 debug 过 LangGraph 多步 agent 的人都知道，痛点不是「日志我的 prompt」，是「第 4 步为什么幻觉了一个我没注册的工具」。多步轨迹评估是没解决的问题，下一个 $50M+ ARR 的位子大开着。

你会卖 DevTools 或有工程品牌

Eval 是技术型买家：工程主管评、安全过、财务付。PLG 在你 bottom-up 真有人用时才行。如果你的定位是「XYZ for AI evals」，你已经输了——切入点必须是一个缺失的功能，而不是一个品类。

🔴 红灯 · 先别入

你在做第 19 家通用 LLM tracing 工具

LangSmith 在 LangChain 里免费内置。Braintrust 拿下 AI-native 品牌客户。Arize 守 Fortune 500。Langfuse 占了开源生态。横向 trace + dashboard 已经没缝了，停手。

你的差异化是「我更便宜」

独立开发者价格底线 Helicone 占了。CoreWeave 刚把 Weave 免费打包送给 WandB 用户。Eval 里光打价格战是死路：上面被企业打包碾压，下面被开源吊打。

你 90 天拉不到一家 Fortune 500 设计合作伙伴

企业 eval 靠 design partnership 卖，不是冷邮件。如果你的关系网 90 天内拉不出一个 Fortune 500 logo 签 $50K pilot，2 年跑道的数学算不过来。

04 · 三条进入路径

垂直 eval bench（法律/医疗/Agent）

领域专家 + 工程联创，$100 万 + 种子前

启动资金: $100 万-300 万种子前
时间投入: 18-24 个月到首个 $1M ARR
第一动作: 选一个受监管的垂直（放射科分诊、临床记录、合同审核、原告 demand letter）。前 90 天蹲点 3-5 个领域团队。在写测试集之前先攒 20 + 领域评审员。护城河是评审员网络，不是 runner 本身。

Agent 轨迹评估工具

工程主导 + 之前真做过 Agent 上线的团队

启动资金: $50 万-200 万种子
时间投入: 12-18 个月到 $500K ARR
第一动作: 锁定一个开源框架（LangGraph、CrewAI、Mastra）。专做多步 agent 轨迹的 eval harness——分支对比、工具调用打分、retry tree 分析。开源 + 托管 SaaS 收重算力费。目标 6 个月 1000 周活跃工程师。

合规 + 审计轨迹切入

前安全/合规主管 + 技术联创

启动资金: $30 万-100 万自筹或种子
时间投入: 9-12 个月到首单
第一动作: 盯受监管行业（银行、医疗、政府）。把已有 LangSmith/Braintrust/Langfuse 日志包装成 SOC2/HIPAA/欧盟 AI Act 审计就绪报告。靠四大合规咨询合作分发，单约 $50K-200K/年。你竞争的是咨询人天，不是其他工具。

05 · 哪种创业者最顺手