赛道全景 · OPC ATLAS

AI Eval / 可观测:Agent 时代第一个稳定的企业付费口子

Braintrust $36M ARR、LangSmith 免费内置 LangChain。小团队还能从哪里切?

更新于 2026-05-10

Eval 和可观测是 AI 时代最接近「企业必付」的一类工具。2024 年 Agent 落地潮后,所有 Fortune 500 都遇到同一个问题:LLM 应用 demo 顺、上线挂,没人知道哪里挂。2026 年横向格局已基本确定——Braintrust、LangSmith、Arize Phoenix、Langfuse 四家在 $10-50M ARR 区间各分蛋糕,背后是完全不同的分发逻辑。下层垂直市场全是空白:法律 eval(引用准确性)、医疗 eval(临床安全)、Agent eval(多步轨迹评分)。横向再开 19 家通用 tracing 工具已经卷不出来,但一个聚焦垂直的 eval 业务收 50 家客户 × $30K,就是 $1.5M ARR 的干净生意,红杉根本不看,但完全能跑通。

格局已经分层。(1) Trace + dashboard 层:LangSmith 内嵌 LangChain(~$10M+ ARR,LangChain 用户默认选项),Langfuse 是开源王者,自托管 + SOC2 双线打——GitHub 1 万 star、云上 ARR ~$5M+。Arize 用 Phoenix 开源做漏斗,进企业版 ML observability 套件——已融 $70M+,行业估 ARR ~$30M。(2) Eval 优先层:Braintrust 据业内报道 2025 年破 ~$36M ARR,公开用户包括 OpenAI、Notion、Vercel、Stripe、Brex、Airtable;切入点是「给 prompt 写单元测试」的离线 eval 流程。(3) 专项层:Patronus AI($17M A 轮,Lit Tests 防幻觉)、Comet Opik(开源 eval + tracing 合体)、Weights & Biases Weave(WandB 重新打包,MLOps 老玩家护城)。2026 三大趋势:(a) 横向工具集体冲 Agent 轨迹评估和工具调用评分,Agent 这边没有明确赢家,机会窗口还开着;(b) 计费从 per-trace 迁移到 per-eval-run + 按席位,eval 反而是更好的切入点;(c) 垂直 TAM 巨大且无人认领——医院买临床安全 eval 不会买 LangSmith,他们需要 HIPAA 合规 + 临床领域评审员的专用 bench。
Braintrust 2023 · A 轮 · ~$36M ARR (2025)
OpenAI / Notion / Vercel / Stripe / Brex / Airtable

从「prompt 单元测试」切入,已扩展到 eval + observability + prompt playground 全家桶。创始人 Ankur Goyal 把 Impira 卖给 Figma,自带 AI-native 团队的渠道。

LangSmith (LangChain) 2023 · LangChain 内置默认工具
~$10M+ ARR / 10 万 + 开发者

内嵌 import 量最大的 LLM 框架,分发即护城河。每个 langchain 用户的默认 observability,「够用」就够它赢。

Arize AI / Phoenix 2020 · C 轮 · 累计融资 $70M+
ARR ~$30M(行业估)

原本做表格 ML 的 observability,2023 年硬转 LLM。开源 Phoenix 做漏斗导流企业版。在传统 Fortune 500 老客户里渗透深。

Langfuse 2023 · YC W23 · 2025 A 轮
GitHub 1 万 + star / ARR ~$5M+

可自托管的开源 LLM observability,不信云的工程团队的默认选项。SOC2 + ISO 27001,欧盟/受监管行业首选。

Patronus AI 2023 · A 轮 · 融资 $17M
Lit Tests / 幻觉检测

前 Meta 研究员 Anand Kannappan、Rebecca Qian 创办。切入点是预置幻觉 + RAG 正确性测试集,卖给企业合规部门,不卷工程团队。

Comet Opik 2024 · 开源
Eval + tracing 合体

Comet(MLOps 老玩家)2024 年推 Opik 守自己的边界。免费 + 开源,靠 Comet 已有 5 万 + 用户分发,是横向工具里防御性最强的一家。

Weights & Biases Weave 2024 · CoreWeave 旗下
WandB 用户免费内置

WandB 的 LLM observability 套件,2025 年随母公司被 CoreWeave 收购(约 $1.7B)。绑 WandB 免费送,是干独立工具最致命的一招。

Helicone 2022 · YC W23 · 开源
~$2M ARR / 9 万 + 开发者

代理式 observability——一行代码替换,无 SDK 侵入。独立开发者友好定价,盈利、小团队、社区认可度最高的「黑马」。

🟢 绿灯 · 考虑入场
你有一个垂直行业 + 能调到领域专家

法律:找得到能审引用准确性的前律师。医疗:找得到能评估分诊安全性的临床医生。销售:能拉到 SDR 主管打外联质量分。横向工具的死穴是没有领域评审员池,这就是你的口子。

你做工程产品 + 能读懂 Agent 轨迹

凌晨 2 点 debug 过 LangGraph 多步 agent 的人都知道,痛点不是「日志我的 prompt」,是「第 4 步为什么幻觉了一个我没注册的工具」。多步轨迹评估是没解决的问题,下一个 $50M+ ARR 的位子大开着。

你会卖 DevTools 或有工程品牌

Eval 是技术型买家:工程主管评、安全过、财务付。PLG 在你 bottom-up 真有人用时才行。如果你的定位是「XYZ for AI evals」,你已经输了——切入点必须是一个缺失的功能,而不是一个品类。

🔴 红灯 · 先别入
你在做第 19 家通用 LLM tracing 工具

LangSmith 在 LangChain 里免费内置。Braintrust 拿下 AI-native 品牌客户。Arize 守 Fortune 500。Langfuse 占了开源生态。横向 trace + dashboard 已经没缝了,停手。

你的差异化是「我更便宜」

独立开发者价格底线 Helicone 占了。CoreWeave 刚把 Weave 免费打包送给 WandB 用户。Eval 里光打价格战是死路:上面被企业打包碾压,下面被开源吊打。

你 90 天拉不到一家 Fortune 500 设计合作伙伴

企业 eval 靠 design partnership 卖,不是冷邮件。如果你的关系网 90 天内拉不出一个 Fortune 500 logo 签 $50K pilot,2 年跑道的数学算不过来。

垂直 eval bench(法律/医疗/Agent)

领域专家 + 工程联创,$100 万 + 种子前

启动资金
$100 万-300 万种子前
时间投入
18-24 个月到首个 $1M ARR
第一动作
选一个受监管的垂直(放射科分诊、临床记录、合同审核、原告 demand letter)。前 90 天蹲点 3-5 个领域团队。在写测试集之前先攒 20 + 领域评审员。护城河是评审员网络,不是 runner 本身。
Agent 轨迹评估工具

工程主导 + 之前真做过 Agent 上线的团队

启动资金
$50 万-200 万种子
时间投入
12-18 个月到 $500K ARR
第一动作
锁定一个开源框架(LangGraph、CrewAI、Mastra)。专做多步 agent 轨迹的 eval harness——分支对比、工具调用打分、retry tree 分析。开源 + 托管 SaaS 收重算力费。目标 6 个月 1000 周活跃工程师。
合规 + 审计轨迹切入

前安全/合规主管 + 技术联创

启动资金
$30 万-100 万自筹或种子
时间投入
9-12 个月到首单
第一动作
盯受监管行业(银行、医疗、政府)。把已有 LangSmith/Braintrust/Langfuse 日志包装成 SOC2/HIPAA/欧盟 AI Act 审计就绪报告。靠四大合规咨询合作分发,单约 $50K-200K/年。你竞争的是咨询人天,不是其他工具。

值得一读

社区

关注谁

相关赛道

  • AI 编程 / DevTools买家重合度极高——买 Cursor/Codeium 的工程团队也买 LangSmith/Braintrust。GTM 渠道复用。
  • AI 安全 / Red Team同一类买家(工程/安全),不同切面。Eval 管对错,Red Team 管对抗。两个合起来打才是最强姿势。
  • Legal AI最大的单一垂直 eval 机会——引用准确性是法律 AI 的头号未解难题。

想知道你属于哪种创业者?

5 分钟 · 12 题 · 免费 · 测出你的画像 + 最匹配的 3 条赛道

开始测试 →
← 返回首页 AI / Agent 全景图 →