
语音交互的进化进入了一个关键节点。Mistral 最新发布的 Voxtral Transcribe 2,瞄准的并非语音合成,而是长期被忽视的语音识别(STT)环节。
两个模型,同时发布
Voxtral Mini Transcribe V2是面向批处理场景的旗舰模型:
- 支持13种语言,包括中文
- 词错误率(WER)约 4%,行业最低水平
- 价格只要 $0.003/分钟,是 ElevenLabs Scribe v2 的 1/5
- 处理速度比 ElevenLabs Scribe 快 3倍
- 支持说话人分离(diarization)和时间戳
Voxtral Realtime则是面向实时场景的流式模型:
- 延迟低至 <200ms,真正意义的实时转录
- 开源(Apache 2.0),可本地部署
- 4B 参数,手机和智能手表均可运行
- Native 多语言支持
为什么 STT 比 TTS 更重要?
语音交互的瓶颈从来不在「机器说话」这一端,而在「机器听懂人说话」这一端。
嘈杂环境、多人会议、专业术语、方言、口语缩写——这些场景的语音识别准确率,才是决定语音助手实际可用性的关键。TTS 各家都能做,差距不大;但 STT 的准确率和速度,才是真正影响用户体验的「短板」。
Mistral 这次主打的正是 Voxtral Transcribe 2 在 FLEURS 基准测试中的准确率表现——约 4% WER,超越了 GPT-4o mini Transcribe、Gemini 2.5 Flash、Deepgram Nova 等主流方案。
对行业的影响
- 价格战开打:$0.003/分钟的成本,直接倒逼闭源厂商降价
- 开源冲击:Realtime 模型的 Apache 2.0 许可,让本地部署成为可能,隐私敏感场景有了新选择
- 平台补全:上次 Mistral 发了 TTS,这次发了 STT——完整的语音对话能力已就位
对 OpenClaw 的参考价值
语音交互是 Agent 能力的重要组成部分。Voxtral Transcribe 2 的开源和低价策略,意味着 OpenClaw 未来在语音场景可以:
- 不依赖商业 API,直接本地部署 STT 模型
- 在隐私敏感场景下实现端侧语音处理
- 结合开源 TTS + STT,构建完全自主控制的语音管道
速度优先、成本可控、隐私安全——这三条主线,会是未来语音 AI 的竞争主线。
来源:Mistral AI 官方发布 / TechCrunch