「프롬프트용 유닛테스트」로 시작해 eval + observability + prompt playground 풀패키지로 확장. 창업자 Ankur Goyal 은 Impira 를 Figma 에 매각 — AI 네이티브 팀에 대한 채널을 처음부터 보유.
Braintrust $36M ARR. LangSmith 는 LangChain 에 무료 내장. 작은 팀이 들어갈 자리는 어디?
Eval 과 Observability 는 AI 영역에서 가장 「엔터프라이즈가 군말 없이 결제하는」 카테고리다. 2024 년 Agent 본격 배포 물결 이후 모든 Fortune 500 이 같은 문제를 겪었다——데모는 잘 돌고 프로덕션에서 깨지는데 원인을 모른다. 2026 년 가로축은 거의 확정——Braintrust, LangSmith, Arize Phoenix, Langfuse 4 사가 $10-50M ARR 구간을 분할하고 있고 각자 유통 경로가 완전히 다르다. 그 아래 세로축 시장은 백지: 법무 eval (인용 정확성), 의료 eval (임상 안전), Agent eval (다단계 궤적 채점). 가로축에 19 번째 범용 tracing 도구를 만드는 건 이미 가망 없지만, 한 세로축에 집중해 50 사 × $30K 의 eval 비즈니스를 굴리면 $1.5M ARR 의 깨끗한 사업이 된다. Sequoia 가 안 보는 자리지만 충분히 굴러간다.
「프롬프트용 유닛테스트」로 시작해 eval + observability + prompt playground 풀패키지로 확장. 창업자 Ankur Goyal 은 Impira 를 Figma 에 매각 — AI 네이티브 팀에 대한 채널을 처음부터 보유.
가장 많이 import 되는 LLM 프레임워크에 내장돼 있어 분배 자체가 해자. langchain 사용자의 사실상 기본 observability. 「충분히 쓸 만함」 만으로 이긴다.
원래 정형 ML 용 observability, 2023 년 LLM 으로 강하게 전환. 오픈소스 Phoenix 를 깔때기로 엔터프라이즈로 유도. 전통적 Fortune 500 침투가 깊다.
셀프호스팅 가능한 오픈소스 LLM observability. 클라우드 안 믿는 엔지니어링 팀의 기본값. SOC2 + ISO 27001, EU · 규제 산업의 1 순위.
전 Meta 연구원 Anand Kannappan, Rebecca Qian 창업. 진입점은 환각 + RAG 정확성용 사전 구축 테스트 셋. 엔터프라이즈 컴플라이언스 부서에 판매, 엔지니어링 시장에서 안 싸운다.
MLOps 노장 Comet 이 2024 년 Opik 출시로 영역 방어. 무료 + 오픈소스, Comet 기존 5만 + 사용자 풀로 분배. 가로축 도구 중 가장 방어적.
WandB 의 LLM observability 패키지. 2025 년 모회사가 CoreWeave 에 약 $1.7B 에 인수. WandB 에 무료 번들로 묶는 게 독립 도구한테는 가장 치명적.
프록시 기반 observability —— SDK 없이 한 줄 교체. 인디 개발자 친화 가격, 흑자, 작은 팀, 커뮤니티 평이 가장 좋은 다크호스.
법무: 인용 정확성을 채점할 전직 변호사. 의료: 트리아지 안전성을 채점할 임상의. 영업: 아웃리치 품질을 채점할 SDR 매니저. 가로축 도구의 약점은 도메인 평가자 풀이 없다는 것. 거기가 진입점.
새벽 2 시에 LangGraph 다단계 agent 를 디버깅해 본 사람은 안다. 문제는 「프롬프트 로깅」이 아니라 「4 단계에서 등록도 안 한 도구를 환각한 이유」다. 다단계 궤적 평가는 미해결 영역, 다음 $50M+ ARR 자리가 비어있다.
Eval 은 기술형 바이어 의사결정. 엔지니어링 리드가 평가, 보안이 통과, 재무가 결제. PLG 는 진짜 바텀업 사용이 있을 때만 작동. 「XYZ for AI evals」를 자칭하는 순간 진다 — 진입점은 빠진 기능이지 카테고리가 아니다.
LangSmith 는 LangChain 에 무료 내장. Braintrust 는 AI 네이티브 로고 잡았다. Arize 는 Fortune 500 방어 중. Langfuse 는 오픈소스 진영을 가져갔다. 가로축 trace + dashboard 엔 더 이상 빈틈이 없다. 중단해야 한다.
인디 가격의 바닥은 Helicone 이 잡았고, CoreWeave 는 Weave 를 WandB 사용자에게 무료 번들로 풀었다. eval 에서 가격 전쟁은 사망 깃발 — 위에선 엔터프라이즈 번들에 짓눌리고 아래선 오픈소스에 발린다.
엔터프라이즈 eval 은 디자인 파트너십으로만 팔린다, 콜드 이메일이 아니다. 90 일 안에 Fortune 500 로고 하나가 $50K 파일럿에 서명 못 시키면 2 년 활주로의 수학이 안 맞는다.
도메인 전문가 + 엔지니어 공동 창업자, 시드 전 $1M+
Agent 프로덕션 경험 있는 엔지니어링 주도 팀
전 보안 / 컴플라이언스 리드 + 기술 공동 창업자
Eval 은 본질적으로 개발자 도구. 코드 짜고, 계측 박고, 새벽 2 시 더러운 트레이스가 어떤지 안다. 규제 수직 산업 인맥까지 있다면 아틀라스 전체에서 레버리지가 가장 높은 트랙.
당신 없이는 수직 eval 이 존재하지 않는다. 엔지니어링만 있는 팀은 임상 안전 bench 도, 법무 인용 eval 도 못 만든다. 도메인 평가자 20 명 명함첩이 해자. 강한 엔지니어 1 명을 붙이면 충분.
컴플라이언스 / 임상 / 법무에서 10 년 일했고 이제 AI 로 가고 싶다면, 수직 eval 이 가장 깨끗한 진입점. 가로축은 포화지만 규제 TAM 은 무주공산.