賽道全景 · OPC ATLAS

AI 語言陪練:GPT-4o Voice 真正撬開的第一個教育垂直

Speak ARR 突破 $50M。Duolingo Max 上線語音。獨立玩家還剩什麼?

更新於 2026-05-12

語言學習是教育垂直裡第一個被 GPT-4o Voice 真正改造的領域,不是被行銷話術改造。2024 年 5 月之前,「AI 語言陪練」幾乎等於「文字聊天 + 僵硬 TTS」,體驗比 iTalki 每小時 $15 的真人老師差遠了。GPT-4o + Realtime API + 同期競品(Gemini Live、ElevenLabs Conversational、Sesame)之後,AI 陪練 300 毫秒回應、能自然打斷、能即時糾音,每節課成本遠低於真人。Speak 靠韓國 + 日本 + 越南在 2025 ARR 突破 $50M,背後是 OpenAI 創業基金;Duolingo Max 在 $30/月賣語音,吃下西方泛消費的大部分;Loora 募資 $12M 主攻成人英語口說;Lingvist 守住演算法優先的小眾;Praktika.ai 是新進的行動端玩家。全球語言學習市場 $610 億,AI 終於能咬下一塊。2026 年獨立玩家的誠實判斷:硬碰硬做泛通用英語已經沒戲——拿到資金的玩家在推理和買量上會輾壓你。但窄語種對(粵語對華語、波蘭語對烏克蘭人、希伯來語對回流猶太人)、特定情境(護理師醫療英語、亞洲律師法律英語、退休族旅遊義大利語)、垂直形態(廣播劇、辯論訓練、純口音矯正)都還有 $500K-2M ARR 等級的乾淨缺口。

2025 年市場分三層定型。(1) 大眾消費 App:Duolingo Max(Duolingo 付費層,約 $30/月,語音功能跑在 GPT 模型上,西方多數市場的預設選項)、Speak(2025 ARR ~$50M+,韓國獨大,OpenAI 投資估值 $10 億+,正在擴 Japan / Vietnam)、Babbel(老牌成人學習品牌,上 AI 慢但仍獲利)。訂閱價收斂在 $15-30/月。(2) 垂直與小眾:Loora(募資 $12M,主打職場口說)、Lingvist(愛沙尼亞塔林,演算法驅動詞彙,獲利獨立公司)、Praktika.ai(行動端 + AI 虛擬人,近期有起勢)、ELSA(聚焦發音,募資 $15M,B 輪)。(3) 真人導師市場:iTalki($1 億+ 營收仍在成長,因為 AI 並未取代真人,是互補)、Preply(募資 ~$1.2 億,型態類似)、Cambly(兒童 + ESL,ARR $5,000 萬+)。2026 年關鍵動態:(a) 語音模型成本 18 個月降了 5 倍——以前算不過帳的 AI 陪練現在單位經濟很穩。(b) 頭部三家產品形態在收斂(即時語音對話、結構化課程、遊戲化),差異化只能從外部找。(c) 韓國 / 日本 / 中國 / 越南的付費表現遠比歐美穩,Speak 的地理結構就是證據。(d) 企業 L&D 開始打開:三星、豐田、LG 這種買員工英語 seat license 時按 $20-50/人/月,比搶消費用戶的留存戰乾淨得多。
Speak 2014 · C+ · 估值 $10 億+ · 2025 ARR ~$50M+
OpenAI 投資 · 韓國 + 日本主導

Connor Zwick 和 Andrew Hsu 創立。LLM 前是閃卡 App,2022-2023 GPT-3.5 出來後直接轉去做語音陪練。韓國先打透是關鍵——韓國成人英語學習者付費穩。目前向日本、越南、法國擴。

Duolingo Max 2023 上線 · Duolingo 付費層 · 約 $30/月
上市($DUOL)· 2024 營收 $7.48 億 · 付費層轉換快

Duolingo 的高端 AI 層。打包 Explain My Answer、Roleplay(即時 AI 對話)、Video Call。對休閒學習者來說這套組合無敵——1 億+ 月活漏斗餵養付費基數年增 40%+。每家獨立陪練 App 頭上的達摩克利斯之劍。

Loora 2021 · A 輪 · 募資 $12M
成人英語口說 · 以色列出身

特拉維夫創立,盯職場人英語口說。底層判斷:GPT 級語音已經能替代入門口說老師 80% 的工作,價格是 1/10。UX 強、付費基數在增,是 Speak 之後的追趕者。

Lingvist 2014 · 愛沙尼亞 · 獨立獲利
演算法詞彙習得 · 小眾但賺錢

塔林公司,創辦人 Mait Müntel 來自 Skype。專做演算法 SRS 詞彙而非口說。MAU 小,但毛利結構比 VC 系同業健康得多。證明「窄垂直教育 + 強單位經濟」就算不轉語音 AI 也是好生意。

Praktika.ai 2022 · 種子 · YC W23
行動端 + AI 虛擬人陪練

英國團隊,純行動端,AI 虛擬人做對話。虛擬人這條線和 Speak 的純音訊做出差異。在「螢幕上有一張臉」體感更接近真練習的新興市場跑得不錯。

ELSA Speak 2015 · B 輪 · 募資 $15M
專攻發音 · 音素級回饋

舊金山 / 越南團隊。所有消費 App 裡最窄的——純發音訓練,自家音素分類模型。真正的護城河是聲學模型,不是 LLM。「評估我的韓語 R」這種用例對通用語音 AI 有防禦性。

iTalki 2007 · 北京 → 全球 · 營收 $1 億+(業內估)
真人陪練市集 · 平均 ~$15/小時

全球最大真人陪練市集。500 萬+ 學生、3 萬+ 老師。AI 陪練崛起,真人陪練 2024-2025 反而在成長——學生在兩節真人課之間用 AI 練題,而不是替代。互補不是競爭。

Babbel 2007 · 柏林 · 營收 ~$3 億 · 上市
老牌成人學習品牌

前 AI 時代的老牌。語音上得慢,2024-2025 給 Duolingo Max + Speak 讓了份額。仍獲利,付費用戶 1,000 萬+。反面教材:品牌勢能能買時間,但和 AI 原生玩家產品差距太大時,買不到太久。

🟢 綠燈 · 可以考慮
能盯一個巨頭忽略的非英語語種對

Duolingo 和 Speak 都把英語放第一。波蘭語對烏克蘭難民、粵語對華語母語者、希伯來語對回流猶太人、印尼語對印尼外籍員工——這些都是被忽略的市場,巨頭多年內不會進。專心做一個 $500K-2M ARR 的生意是真實可達。

有消費 App 忽略的明確情境

護理師醫療英語、亞洲律師法律英語、退休族旅遊義大利語、雅思應試英語、演員口音矯正。這些情境的使用者願意付 $50-100/月,遠高於消費 App 底線。

你懂哪個地理付費

韓國、日本、中國、越南、巴西的付費率明顯高於歐美。Speak $50M ARR 裡美國之外大約占 70%。如果你或共同創辦人在某個這種市場有切入點,機會是真的。如果你是「為西方做」,等於用更差的分發硬抗 Duolingo。

🔴 紅燈 · 先別動
做「通用 AI 英語陪練」

Speak、Duolingo Max、Loora、ELSA、Praktika 五家融資充足在搶這位置。沒有給第六個通用英語 App 的空間。出路只有垂直或地理專精。

商業模式是「語音 AI 便宜,所以我們賣得更便宜」

價格戰是死亡螺旋。Speak 在 $20/月也賺。Duolingo Max $30/月。低價玩家根本付不起推理 + 內容 + 行銷 + 留存戰的錢。切入點不是價格,是信任、垂直度、效果。

沒錢募,也沒窄垂直

消費 App 是 CPI / LTV 戰——Speak 和 Duolingo 募了幾億美金就為了贏這場。$500K 種子輪做泛英語消費,LTV 還沒追上 CAC 錢就燒完。要嘛有錢,要嘛有窄垂直。

窄語種對(輕資產獨立打法)

雙語母語級/接近母語級、目標語種被忽略的創辦人

資金
$50K-300K(bootstrap)
時間
12-18 個月到 $30K MRR
GTM
挑一對 500 萬+ 使用者、還沒有主導 App 的 L1 → L2:波蘭語 → 烏克蘭、粵語 → 華語、希伯來語 → 回流猶太人。給這對做一個簡單語音陪練 + 自家課程。分發走窄社群(Reddit、Facebook 社團、海外華人圈)。$30/月訂閱。18 個月目標 1,000 付費。
垂直情境(B2B 友好)

本職專業 + ESL 角度的創辦人(醫療、法律、技術、酒店)

資金
$300K-1M(種子)
時間
9-15 個月到首批 50 個企業座位
GTM
挑一個消費 App 不碰的英語垂直:菲律賓護理師醫療英語、亞洲律師法律英語、加勒比酒店英語。和領域專家共建課程。賣給仲介、培訓學校、雇主協會,$30-80/座位/月,50-500 座位合約。12 個月目標 $30K MRR。
資本驅動的消費正面戰(完整 VC 路徑)

連續創業 + 消費 App 經驗 + 地理切入點的團隊

資金
$3-10M(種子/A 輪)
時間
24-36 個月到 PMF
GTM
在 Speak 還沒贏的地理硬抗 Speak。越南、印度、巴西、印尼、墨西哥都符合。大量買量 + 本地課程 + K-12 或政府合作。這是「Speak 形態」的賭,需要真金白銀和過硬執行,但獎品是真的($100M+ ARR)。
消費訂閱價:$15-30/月是合理區間。低於 $15,語音推理 $0.10-0.20/小時(2026 價位)會把單位經濟打爆。高於 $30,除非買方是企業或備考族群,留存崩。免費轉付費:消費 App 健康水準 3-7%,Speak 接近高位。月流失:消費 6-12%,5% 以下基本要靠 B2B 或備考。買量 CAC:歐美成熟市場 $20-60,亞洲新興 $5-20。LTV 目標:消費 $80-200,B2B $400-1,000。2026 語音推理:GPT-4o Realtime 或 Gemini Live 每活躍會話小時 $0.10-0.20,對比 2023 的 $1-3。活躍目標:留存使用者 4-6 次/週,付費使用者 8+ 次/週;低於 2 次/週,90 天內流失。獨立創業者 MVP 時間:用 OpenAI Realtime API + 簡單課程框架 + 基礎 mobile,6-10 週可上線。窄垂直獨立從 0 到 $10K MRR:通常 9-15 個月,需要創辦人自帶分發。

本週 5 個具體動作

  1. 打開 Google Doc,把窄垂直寫成一句話:「【具體學習者】為【具體結果】學【語種對】」。抽象名詞輸。「菲律賓護理師為 NCLEX-RN 通過學美式醫療英語」贏。
  2. 本週用 OpenAI Realtime API 或 Vapi 搭一個 10 分鐘的語音陪練原型。餵 20 個單詞的樣本課程,找一個目標垂直裡的朋友用一下。可用性才是真正的起點。
  3. 在垂直裡找 5 個潛在付費使用者。不是朋友。是 Reddit/LinkedIn 上的陌生人。問:每月願意為針對 X 的陪練付多少錢?他們的回答就是你的價格下限。
  4. 按自己技術堆疊估每小時活躍語音推理成本。乘以付費使用者每月預期會話數。如果單位經濟在 $20/月之上崩,垂直不對,需要換更高客單的情境。
  5. 列分發護城河。如果你說不出一條管道(韓國某高校關係、菲律賓護理師論壇管理員朋友、拉丁經典老師圈),你就沒有分發優勢——靠買量必輸。繼續磨窄垂直直到至少有一條。

值得讀

社群

關注的人

相鄰賽道

  • Cohort 訓練營同屬教育,型態相反——cohort 高接觸群體學,AI 陪練 1v1 低接觸。有人把兩者做成互相的漏斗。
  • 創作者 AI 工具語音/TTS 底層高度重疊。許多語言陪練棧跑在同一批底座模型上。
  • YouTube一個多語種 YouTube 頻道可能是窄語種陪練最便宜的獲客管道。參見 Easy Languages、可理解輸入類頻道。

你是哪種創辦人?

5 分鐘 · 12 題 · 免費 · 拿到你的原型 + 最匹配的 3 條賽道

開始測驗 →
← 首頁 教育全景 →