AI Eval & Observability 트랙 2026 | LangSmith, Braintrust, Arize, Langfuse

AI Eval & Observability: Agent 시대에 가장 먼저 자리잡은 엔터프라이즈 결제 포인트

Braintrust $36M ARR. LangSmith 는 LangChain 에 무료 내장. 작은 팀이 들어갈 자리는 어디?

업데이트 2026-05-10

Eval 과 Observability 는 AI 영역에서 가장 「엔터프라이즈가 군말 없이 결제하는」 카테고리다. 2024 년 Agent 본격 배포 물결 이후 모든 Fortune 500 이 같은 문제를 겪었다——데모는 잘 돌고 프로덕션에서 깨지는데 원인을 모른다. 2026 년 가로축은 거의 확정——Braintrust, LangSmith, Arize Phoenix, Langfuse 4 사가 $10-50M ARR 구간을 분할하고 있고 각자 유통 경로가 완전히 다르다. 그 아래 세로축 시장은 백지: 법무 eval (인용 정확성), 의료 eval (임상 안전), Agent eval (다단계 궤적 채점). 가로축에 19 번째 범용 tracing 도구를 만드는 건 이미 가망 없지만, 한 세로축에 집중해 50 사 × $30K 의 eval 비즈니스를 굴리면 $1.5M ARR 의 깨끗한 사업이 된다. Sequoia 가 안 보는 자리지만 충분히 굴러간다.

01 · 2026 시장 현황

시장은 명확히 계층화됐다. (1) 트레이스 + 대시보드 층: LangSmith 는 LangChain 에 기본 내장 (ARR ~$10M+, LangChain 사용자 기본값), Langfuse 는 셀프호스팅 + SOC2 양면 공격으로 오픈소스 승자 (GitHub star 1만 +, 클라우드 ARR ~$5M+). Arize 는 오픈소스 Phoenix 를 깔때기로 엔터프라이즈 ML observability 로 유도 (누적 $70M+ 조달, 업계 추정 ARR ~$30M). (2) Eval 우선 층: Braintrust 는 2025 년 ~$36M ARR 돌파 (업계 보도), 공개 고객으로 OpenAI, Notion, Vercel, Stripe, Brex, Airtable. 진입점은 「프롬프트용 유닛테스트 러너」성격의 오프라인 eval. (3) 전문 층: Patronus AI ($17M Series A, 환각 Lit Tests), Comet Opik (오픈소스 eval + tracing 결합), Weights & Biases Weave (WandB 재포장, MLOps 노장 방어). 2026 년 큰 흐름 세 가지: (a) 가로축 도구들이 Agent 궤적 평가와 tool-call 채점으로 일제히 진입, Agent 쪽엔 아직 명확한 승자 없음 → 기회의 창; (b) 과금이 per-trace 에서 per-eval-run + per-seat 으로 이동, eval 이 오히려 더 좋은 진입점; (c) 수직 TAM 이 거대하고 주인 없음——병원이 임상 안전 eval 을 살 때 LangSmith 를 사지 않는다. HIPAA 준수 + 임상 도메인 평가자를 갖춘 임상 eval bench 가 필요하다.

02 · 주목할 회사

Braintrust 2023 · Series A · ARR ~$36M (2025)

OpenAI · Notion · Vercel · Stripe · Brex · Airtable

「프롬프트용 유닛테스트」로 시작해 eval + observability + prompt playground 풀패키지로 확장. 창업자 Ankur Goyal 은 Impira 를 Figma 에 매각 — AI 네이티브 팀에 대한 채널을 처음부터 보유.

LangSmith (LangChain) 2023 · LangChain 기본 내장 도구

ARR ~$10M+ / 개발자 10만 +

가장 많이 import 되는 LLM 프레임워크에 내장돼 있어 분배 자체가 해자. langchain 사용자의 사실상 기본 observability. 「충분히 쓸 만함」 만으로 이긴다.

Arize AI / Phoenix 2020 · Series C · 누적 $70M+

ARR ~$30M (업계 추정)

원래 정형 ML 용 observability, 2023 년 LLM 으로 강하게 전환. 오픈소스 Phoenix 를 깔때기로 엔터프라이즈로 유도. 전통적 Fortune 500 침투가 깊다.

Langfuse 2023 · YC W23 · 2025 Series A

GitHub star 1만 + / ARR ~$5M+

셀프호스팅 가능한 오픈소스 LLM observability. 클라우드 안 믿는 엔지니어링 팀의 기본값. SOC2 + ISO 27001, EU · 규제 산업의 1 순위.

Patronus AI 2023 · Series A · $17M 조달

Lit Tests / 환각 탐지

전 Meta 연구원 Anand Kannappan, Rebecca Qian 창업. 진입점은 환각 + RAG 정확성용 사전 구축 테스트 셋. 엔터프라이즈 컴플라이언스 부서에 판매, 엔지니어링 시장에서 안 싸운다.

Comet Opik 2024 · 오픈소스

Eval + tracing 결합

MLOps 노장 Comet 이 2024 년 Opik 출시로 영역 방어. 무료 + 오픈소스, Comet 기존 5만 + 사용자 풀로 분배. 가로축 도구 중 가장 방어적.

Weights & Biases Weave 2024 · CoreWeave 산하

WandB 사용자 무료 내장

WandB 의 LLM observability 패키지. 2025 년 모회사가 CoreWeave 에 약 $1.7B 에 인수. WandB 에 무료 번들로 묶는 게 독립 도구한테는 가장 치명적.

Helicone 2022 · YC W23 · 오픈소스

ARR ~$2M / 개발자 9만 +

프록시 기반 observability —— SDK 없이 한 줄 교체. 인디 개발자 친화 가격, 흑자, 작은 팀, 커뮤니티 평이 가장 좋은 다크호스.

03 · 진입 전 신호등

🟢 초록불 · 들어갈 만함

한 수직 산업 + 도메인 전문가 풀 확보

법무: 인용 정확성을 채점할 전직 변호사. 의료: 트리아지 안전성을 채점할 임상의. 영업: 아웃리치 품질을 채점할 SDR 매니저. 가로축 도구의 약점은 도메인 평가자 풀이 없다는 것. 거기가 진입점.

엔지니어링 프로덕트를 만들고 Agent 궤적을 읽을 수 있다

새벽 2 시에 LangGraph 다단계 agent 를 디버깅해 본 사람은 안다. 문제는 「프롬프트 로깅」이 아니라 「4 단계에서 등록도 안 한 도구를 환각한 이유」다. 다단계 궤적 평가는 미해결 영역, 다음 $50M+ ARR 자리가 비어있다.

DevTools 를 팔 수 있거나 엔지니어링 브랜드가 있다

Eval 은 기술형 바이어 의사결정. 엔지니어링 리드가 평가, 보안이 통과, 재무가 결제. PLG 는 진짜 바텀업 사용이 있을 때만 작동. 「XYZ for AI evals」를 자칭하는 순간 진다 — 진입점은 빠진 기능이지 카테고리가 아니다.

🔴 빨간불 · 잠깐 멈춤

가로축 19 번째 범용 LLM tracing 을 만들고 있다

LangSmith 는 LangChain 에 무료 내장. Braintrust 는 AI 네이티브 로고 잡았다. Arize 는 Fortune 500 방어 중. Langfuse 는 오픈소스 진영을 가져갔다. 가로축 trace + dashboard 엔 더 이상 빈틈이 없다. 중단해야 한다.

차별화가 「저렴함」 하나뿐

인디 가격의 바닥은 Helicone 이 잡았고, CoreWeave 는 Weave 를 WandB 사용자에게 무료 번들로 풀었다. eval 에서 가격 전쟁은 사망 깃발 — 위에선 엔터프라이즈 번들에 짓눌리고 아래선 오픈소스에 발린다.

90 일 안에 Fortune 500 디자인 파트너 1 곳을 못 잡는다

엔터프라이즈 eval 은 디자인 파트너십으로만 팔린다, 콜드 이메일이 아니다. 90 일 안에 Fortune 500 로고 하나가 $50K 파일럿에 서명 못 시키면 2 년 활주로의 수학이 안 맞는다.

04 · 진입하는 세 가지 길

수직 eval bench (법무 / 의료 / Agent)

도메인 전문가 + 엔지니어 공동 창업자, 시드 전 $1M+

초기 자본: $1M-3M 시드 전
투입 시간: 18-24 개월 안에 첫 $1M ARR
첫 수: 규제 수직 산업을 하나 고른다 (방사선 트리아지, 임상 기록, 계약 레드라인, 원고 demand letter 등). 첫 90 일은 3-5 개 도메인 팀에 붙는다. 테스트 작성 전에 도메인 평가자 20 명 + 를 먼저 모은다. 해자는 평가자 네트워크지 러너 그 자체가 아니다.

Agent 궤적 평가 도구

Agent 프로덕션 경험 있는 엔지니어링 주도 팀

초기 자본: $500K-2M 시드
투입 시간: 12-18 개월 안에 $500K ARR
첫 수: 오픈소스 프레임워크 (LangGraph / CrewAI / Mastra) 하나에 집중. 다단계 agent 궤적 전용 eval harness — 분기 비교, tool-call 채점, retry tree 분석. 오픈소스 + 호스팅 SaaS 로 무거운 컴퓨트 과금. 6 개월 안에 주간 활성 엔지니어 1,000 명 목표.

컴플라이언스 + 감사 트레일 진입

전 보안 / 컴플라이언스 리드 + 기술 공동 창업자

초기 자본: $300K-1M 부트스트랩 또는 시드
투입 시간: 9-12 개월 안에 첫 계약
첫 수: 규제 산업 (은행, 의료, 정부)을 노린다. 기존 LangSmith / Braintrust / Langfuse 로그를 SOC2 / HIPAA / EU AI Act 감사 대응 보고서로 변환하는 얇은 레이어를 출시. Big-4 컴플라이언스 파트너십으로 분배, 단건 $50K-200K/년. 경쟁은 다른 도구가 아니라 컨설팅 공수.

06 · 다음에 볼 것

읽을거리

AI Engineering (Chip Huyen 2025 신간) O'Reilly
Your AI Product Needs Evals (업계 필독) Hamel Husain
The State of LLM Evaluation 2025 Braintrust

커뮤니티

팔로우

Ankur Goyal (Braintrust CEO) @ankrgyl
Hamel Husain (eval 필자) @HamelHusain
Eugene Yan (eval 장문 필자) @eugeneyan

당신은 어떤 창업자?

5 분 · 12 문항 · 무료 · 당신의 유형과 가장 잘 맞는 트랙 3 개

퀴즈 시작 →

AI Eval & Observability: Agent 시대에 가장 먼저 자리잡은 엔터프라이즈 결제 포인트

읽을거리

커뮤니티

팔로우

관련 트랙

당신은 어떤 창업자?