大概两周前受到 这篇文章 的启发,我开始在全平台尝试使用 Wispr Flow 进行语音转文字。今天分享一下这段时间的经验。
硬件
硬件分两部分来说。
首先是家里。我使用 Mac mini M2 Pro 和 Studio Display。如果不用外接话筒,默认收音设备就是 Studio Display。一个人在家时,对着显示器说话没什么问题;但家里有人的话,中等音量就会被听到内容。隐私倒不是问题,只是旁边有人时总会有所顾忌,有时候他们听到我输入的内容, 还会来笑我。
解决方案很简单:直接使用我桌面上原本用于录播的设备——舒尔 SM7 话筒和 Apogee Symphony Desktop 声卡。这样即使用很小的声音低语,也能准确识别。
另一个场景是在公司开放办公环境里使用 Windows PC。直接用笔记本麦克风显然不合适。我试过有线麦克风,但手持讲话总觉得别扭,桌上多根线也不好看。
后来想到蓝牙无线麦克风。最火的是 Wispr Flow 官方提到的大疆 Mic Mini 2,但价格要三百多块。如果最后用不习惯,成本还是有点高。
后来我买了博雅(Boya)的 Mini 2 一拖一基础款,闲鱼上 110 元包邮。用了两天,效果出乎意料地好。在公司只需很小音量低声说话,麦克风夹在衣领上,不需要手持,也没有线缆干扰。
至于 iPhone,我直接对着手机麦克风说话。
软件
AI 语音转文字软件很多,从开源免费到付费订阅都有。
我之前试过 Superwhisper、Aiko,还有别人推荐但尚未体验的 Typeless 和 Monologue。目前用了差不多一个星期的 Wispr Flow,已经能很好满足需求。
语音转文字最大的痛点,是某些词或句子无法被正确识别。Wispr Flow 的 Dictionary 功能很好地解决了这个问题。
发现识别错误后,直接修改文字即可。Wispr Flow 会记住正确写法并自动加入 Dictionary,下次便能正确识别。当然也可以手动添加词条。
除此之外,这类 App 通常还有一些 AI 辅助功能,比如整理成 AI 提示词,或者转换成商务邮件格式。不过这些功能我用得不多。
至于 Wispr Flow 和苹果自带语音转文字的差距,我只能说是天壤之别。用过 Wispr Flow 之后,再回去用苹果自带方案,几乎无法忍受。
好处
首先当然是更快。
这篇文章就是我用语音输入完成的。如果全靠手敲,大概至少需要三倍时间。
第二个好处是记录成本大幅降低。当输入变得足够轻松时,我会记录更多细节。无论是写日记还是记录工作日志,都能写得更详细。
以前打字时,为了减少输入量,我总会尽量简洁,不可避免地遗漏很多细节。
第三个好处是 AI 会顺手帮忙整理格式。比如口述清单时自动分行、添加编号;口述标点时自动补全;有时甚至还能正确加上括号。
最后分享一下我的 Wispr Flow 邀请码。如果你通过 这个链接 注册,可以免费使用一个月(我也能额外获得一个月 Pro 权限)。
