Mistral 补全语音最后一环：Voxtral Transcribe 2 发布，STT 进入开源低价时代

Voxtral语音转文字

语音交互的进化进入了一个关键节点。Mistral 最新发布的 Voxtral Transcribe 2，瞄准的并非语音合成，而是长期被忽视的语音识别（STT）环节。

两个模型，同时发布

Voxtral Mini Transcribe V2是面向批处理场景的旗舰模型：

Voxtral Realtime则是面向实时场景的流式模型：

语音交互的瓶颈从来不在「机器说话」这一端，而在「机器听懂人说话」这一端。

嘈杂环境、多人会议、专业术语、方言、口语缩写——这些场景的语音识别准确率，才是决定语音助手实际可用性的关键。TTS 各家都能做，差距不大；但 STT 的准确率和速度，才是真正影响用户体验的「短板」。

Mistral 这次主打的正是 Voxtral Transcribe 2 在 FLEURS 基准测试中的准确率表现——约 4% WER，超越了 GPT-4o mini Transcribe、Gemini 2.5 Flash、Deepgram Nova 等主流方案。

语音交互是 Agent 能力的重要组成部分。Voxtral Transcribe 2 的开源和低价策略，意味着 OpenClaw 未来在语音场景可以：

速度优先、成本可控、隐私安全——这三条主线，会是未来语音 AI 的竞争主线。

来源：Mistral AI 官方发布 / TechCrunch