從「prompt 單元測試」切入,已擴展到 eval + observability + prompt playground 全家桶。創辦人 Ankur Goyal 把 Impira 賣給 Figma,自帶 AI-native 團隊的管道。
Braintrust $36M ARR、LangSmith 免費內建 LangChain。小團隊還能從哪裡切?
Eval 與可觀測是 AI 時代最接近「企業必付」的一類工具。2024 年 Agent 落地潮後,所有 Fortune 500 都遇到同一個問題:LLM 應用 demo 順、上線掛,沒人知道哪裡掛。2026 年橫向格局已基本確定——Braintrust、LangSmith、Arize Phoenix、Langfuse 四家在 $10-50M ARR 區間各分蛋糕,背後是完全不同的分發邏輯。下層垂直市場全是空白:法律 eval(引用準確性)、醫療 eval(臨床安全)、Agent eval(多步軌跡評分)。橫向再開 19 家通用 tracing 工具已經捲不出來,但一個聚焦垂直的 eval 業務收 50 家客戶 × $30K,就是 $1.5M ARR 的乾淨生意,紅杉根本不看,但完全能跑通。
從「prompt 單元測試」切入,已擴展到 eval + observability + prompt playground 全家桶。創辦人 Ankur Goyal 把 Impira 賣給 Figma,自帶 AI-native 團隊的管道。
內嵌 import 量最大的 LLM 框架,分發即護城河。每個 langchain 使用者的預設 observability,「夠用」就夠它贏。
原本做表格 ML 的 observability,2023 年硬轉 LLM。開源 Phoenix 做漏斗導流企業版。在傳統 Fortune 500 老客戶裡滲透深。
可自託管的開源 LLM observability,不信雲的工程團隊的預設選項。SOC2 + ISO 27001,歐盟/受監管行業首選。
前 Meta 研究員 Anand Kannappan、Rebecca Qian 創辦。切入點是預置幻覺 + RAG 正確性測試集,賣給企業合規部門,不捲工程團隊。
Comet(MLOps 老玩家)2024 年推 Opik 守自己的邊界。免費 + 開源,靠 Comet 已有 5 萬 + 使用者分發,是橫向工具裡防禦性最強的一家。
WandB 的 LLM observability 套件,2025 年隨母公司被 CoreWeave 收購(約 $1.7B)。綁 WandB 免費送,是幹獨立工具最致命的一招。
代理式 observability——一行程式碼替換,無 SDK 侵入。獨立開發者友善定價,獲利、小團隊、社群認可度最高的「黑馬」。
法律:找得到能審引用準確性的前律師。醫療:找得到能評估分診安全性的臨床醫師。銷售:能拉到 SDR 主管打外聯品質分。橫向工具的死穴是沒有領域評審員池,這就是你的口子。
凌晨 2 點 debug 過 LangGraph 多步 agent 的人都知道,痛點不是「日誌我的 prompt」,是「第 4 步為什麼幻覺了一個我沒註冊的工具」。多步軌跡評估是沒解決的問題,下一個 $50M+ ARR 的位子大開著。
Eval 是技術型買家:工程主管評、安全過、財務付。PLG 在你 bottom-up 真有人用時才行。如果你的定位是「XYZ for AI evals」,你已經輸了——切入點必須是一個缺失的功能,而不是一個品類。
LangSmith 在 LangChain 裡免費內建。Braintrust 拿下 AI-native 品牌客戶。Arize 守 Fortune 500。Langfuse 占了開源生態。橫向 trace + dashboard 已經沒縫了,停手。
獨立開發者價格底線 Helicone 占了。CoreWeave 剛把 Weave 免費打包送給 WandB 使用者。Eval 裡光打價格戰是死路:上面被企業打包碾壓,下面被開源吊打。
企業 eval 靠 design partnership 賣,不是冷郵件。如果你的關係網 90 天內拉不出一個 Fortune 500 logo 簽 $50K pilot,2 年跑道的數學算不過來。
領域專家 + 工程聯創,$100 萬 + 種子前
工程主導 + 之前真做過 Agent 上線的團隊
前安全/合規主管 + 技術聯創