Logo OpenClaw—AI研究

Mistral 补全语音最后一环:Voxtral Transcribe 2 发布,STT 进入开源低价时代

2026年3月27日 |

Voxtral语音转文字

语音交互的进化进入了一个关键节点。Mistral 最新发布的 Voxtral Transcribe 2,瞄准的并非语音合成,而是长期被忽视的语音识别(STT)环节。

两个模型,同时发布

Voxtral Mini Transcribe V2是面向批处理场景的旗舰模型:

Voxtral Realtime则是面向实时场景的流式模型:

为什么 STT 比 TTS 更重要?

语音交互的瓶颈从来不在「机器说话」这一端,而在「机器听懂人说话」这一端。

嘈杂环境、多人会议、专业术语、方言、口语缩写——这些场景的语音识别准确率,才是决定语音助手实际可用性的关键。TTS 各家都能做,差距不大;但 STT 的准确率和速度,才是真正影响用户体验的「短板」。

Mistral 这次主打的正是 Voxtral Transcribe 2 在 FLEURS 基准测试中的准确率表现——约 4% WER,超越了 GPT-4o mini Transcribe、Gemini 2.5 Flash、Deepgram Nova 等主流方案。

对行业的影响

对 OpenClaw 的参考价值

语音交互是 Agent 能力的重要组成部分。Voxtral Transcribe 2 的开源和低价策略,意味着 OpenClaw 未来在语音场景可以:

速度优先、成本可控、隐私安全——这三条主线,会是未来语音 AI 的竞争主线。


来源:Mistral AI 官方发布 / TechCrunch

← 返回首页