从「prompt 单元测试」切入,已扩展到 eval + observability + prompt playground 全家桶。创始人 Ankur Goyal 把 Impira 卖给 Figma,自带 AI-native 团队的渠道。
Braintrust $36M ARR、LangSmith 免费内置 LangChain。小团队还能从哪里切?
Eval 和可观测是 AI 时代最接近「企业必付」的一类工具。2024 年 Agent 落地潮后,所有 Fortune 500 都遇到同一个问题:LLM 应用 demo 顺、上线挂,没人知道哪里挂。2026 年横向格局已基本确定——Braintrust、LangSmith、Arize Phoenix、Langfuse 四家在 $10-50M ARR 区间各分蛋糕,背后是完全不同的分发逻辑。下层垂直市场全是空白:法律 eval(引用准确性)、医疗 eval(临床安全)、Agent eval(多步轨迹评分)。横向再开 19 家通用 tracing 工具已经卷不出来,但一个聚焦垂直的 eval 业务收 50 家客户 × $30K,就是 $1.5M ARR 的干净生意,红杉根本不看,但完全能跑通。
从「prompt 单元测试」切入,已扩展到 eval + observability + prompt playground 全家桶。创始人 Ankur Goyal 把 Impira 卖给 Figma,自带 AI-native 团队的渠道。
内嵌 import 量最大的 LLM 框架,分发即护城河。每个 langchain 用户的默认 observability,「够用」就够它赢。
原本做表格 ML 的 observability,2023 年硬转 LLM。开源 Phoenix 做漏斗导流企业版。在传统 Fortune 500 老客户里渗透深。
可自托管的开源 LLM observability,不信云的工程团队的默认选项。SOC2 + ISO 27001,欧盟/受监管行业首选。
前 Meta 研究员 Anand Kannappan、Rebecca Qian 创办。切入点是预置幻觉 + RAG 正确性测试集,卖给企业合规部门,不卷工程团队。
Comet(MLOps 老玩家)2024 年推 Opik 守自己的边界。免费 + 开源,靠 Comet 已有 5 万 + 用户分发,是横向工具里防御性最强的一家。
WandB 的 LLM observability 套件,2025 年随母公司被 CoreWeave 收购(约 $1.7B)。绑 WandB 免费送,是干独立工具最致命的一招。
代理式 observability——一行代码替换,无 SDK 侵入。独立开发者友好定价,盈利、小团队、社区认可度最高的「黑马」。
法律:找得到能审引用准确性的前律师。医疗:找得到能评估分诊安全性的临床医生。销售:能拉到 SDR 主管打外联质量分。横向工具的死穴是没有领域评审员池,这就是你的口子。
凌晨 2 点 debug 过 LangGraph 多步 agent 的人都知道,痛点不是「日志我的 prompt」,是「第 4 步为什么幻觉了一个我没注册的工具」。多步轨迹评估是没解决的问题,下一个 $50M+ ARR 的位子大开着。
Eval 是技术型买家:工程主管评、安全过、财务付。PLG 在你 bottom-up 真有人用时才行。如果你的定位是「XYZ for AI evals」,你已经输了——切入点必须是一个缺失的功能,而不是一个品类。
LangSmith 在 LangChain 里免费内置。Braintrust 拿下 AI-native 品牌客户。Arize 守 Fortune 500。Langfuse 占了开源生态。横向 trace + dashboard 已经没缝了,停手。
独立开发者价格底线 Helicone 占了。CoreWeave 刚把 Weave 免费打包送给 WandB 用户。Eval 里光打价格战是死路:上面被企业打包碾压,下面被开源吊打。
企业 eval 靠 design partnership 卖,不是冷邮件。如果你的关系网 90 天内拉不出一个 Fortune 500 logo 签 $50K pilot,2 年跑道的数学算不过来。
领域专家 + 工程联创,$100 万 + 种子前
工程主导 + 之前真做过 Agent 上线的团队
前安全/合规主管 + 技术联创