聊聊语音输入转文字这件事

大概两周前受到这篇文章的启发，我开始在全平台尝试使用 Wispr Flow 进行语音转文字。今天分享一下这段时间的经验。

硬件

硬件分两部分来说。

首先是家里。我使用 Mac mini M2 Pro 和 Studio Display。如果不用外接话筒，默认收音设备就是 Studio Display。一个人在家时，对着显示器说话没什么问题；但家里有人的话，中等音量就会被听到内容。隐私倒不是问题，只是旁边有人时总会有所顾忌，有时候他们听到我输入的内容，还会来笑我。

解决方案很简单：直接使用我桌面上原本用于录播的设备——舒尔 SM7 话筒和 Apogee Symphony Desktop 声卡。这样即使用很小的声音低语，也能准确识别。

另一个场景是在公司开放办公环境里使用 Windows PC。直接用笔记本麦克风显然不合适。我试过有线麦克风，但手持讲话总觉得别扭，桌上多根线也不好看。

后来想到蓝牙无线麦克风。最火的是 Wispr Flow 官方提到的大疆 Mic Mini 2，但价格要三百多块。如果最后用不习惯，成本还是有点高。

后来我买了博雅（Boya）的 Mini 2 一拖一基础款，闲鱼上 110 元包邮。用了两天，效果出乎意料地好。在公司只需很小音量低声说话，麦克风夹在衣领上，不需要手持，也没有线缆干扰。

至于 iPhone，我直接对着手机麦克风说话。

软件

AI 语音转文字软件很多，从开源免费到付费订阅都有。

我之前试过 Superwhisper、Aiko，还有别人推荐但尚未体验的 Typeless 和 Monologue。目前用了差不多一个星期的 Wispr Flow，已经能很好满足需求。

语音转文字最大的痛点，是某些词或句子无法被正确识别。Wispr Flow 的 Dictionary 功能很好地解决了这个问题。

发现识别错误后，直接修改文字即可。Wispr Flow 会记住正确写法并自动加入 Dictionary，下次便能正确识别。当然也可以手动添加词条。

除此之外，这类 App 通常还有一些 AI 辅助功能，比如整理成 AI 提示词，或者转换成商务邮件格式。不过这些功能我用得不多。

至于 Wispr Flow 和苹果自带语音转文字的差距，我只能说是天壤之别。用过 Wispr Flow 之后，再回去用苹果自带方案，几乎无法忍受。

好处

首先当然是更快。

这篇文章就是我用语音输入完成的。如果全靠手敲，大概至少需要三倍时间。

第二个好处是记录成本大幅降低。当输入变得足够轻松时，我会记录更多细节。无论是写日记还是记录工作日志，都能写得更详细。

以前打字时，为了减少输入量，我总会尽量简洁，不可避免地遗漏很多细节。

第三个好处是 AI 会顺手帮忙整理格式。比如口述清单时自动分行、添加编号；口述标点时自动补全；有时甚至还能正确加上括号。

最后分享一下我的 Wispr Flow 邀请码。如果你通过这个链接注册，可以免费使用一个月（我也能额外获得一个月 Pro 权限）。