想和 AI 用语音输入,但没有趁手的工具

想和 AI 用语音输入,但没有趁手的工具

最大的痛点:打字太慢,说话又不方便

跟AI对话的时候,最大的瓶颈不是AI不够聪明,是我输出太慢。脑子里想法噗噗冒,手指一分钟只能敲几十个字。中间全变成了「算了,懒得打了」。

语音输入是解决办法。一分钟能说200-300字,比打字快三倍。

但问题来了:在哪儿说话?

我坐在工位上跟Claude聊方案,电脑离我一臂远。如果开电脑的麦克风语音输入,我得把声音放大才能被识别。办公室的同事还在旁边,老尴尬了。此外,图书馆、咖啡厅、深夜在家怕吵醒家人——这些场景下,大声说话要么不可能,要么不合适。

别人的方案:麦克风口罩

确实有人想到了这个场景。之前看到有人做「麦克风口罩」产品,原理很简单:口罩里集成麦克风,物理隔音降噪。你戴上它说话,别人看不见也听不清。语音通过蓝牙传到手机或电脑,再转成文字。

看起来合理。但仔细想一想:

如无必要,勿增实体。买个新的硬件,需要蓝牙配对、需要充电(8-10小时续航),可能还需要收纳。增加了一套维护负担。

而且,买装备,总是要花钱的,而且不便宜(似乎卖199美元?!)

此外,口罩戴久了确实不舒服。想必经历过疫情的各位都懂。但频繁带上摘下,超麻烦的好吧。

所以我想用手机。

另一个方案:讯飞输入法

手机输入,发给电脑这个场景,也有人做了。讯飞输入法也有跨屏输入功能,思路类似——手机说话,字出现在电脑上。

我用过,不好用。

第一,讯飞输入法本身的产品实力不够强。它的语音识别准确率不如我现在用的手机输入法(豆包、微信等)。

第二,电脑端会有一个始终保持在最前端的浮窗,遮挡视线。不管你在干什么活,浮窗就在旁边挡着,关掉就不能用了。

第三,手机端必须持续运行在前台。切到后台?锁屏?连接立刻断开,如果断的时间长了,得手动重连。电脑屏幕还会弹一个大大的提示窗。

这三个问题叠加,体验非常割裂(不然也不会有TextDrop)。

我的方案:只传文字,不传声音

我觉得,把手机上的字传到电脑上,应该是一个非常简单的事情。 不需要把手机的麦克风借给电脑,不需要重新建一个输入法。更不需要额外的硬件。

于是我花了一下午做出了TextDrop。

用法非常简单:电脑端开一个超小的本地程序,生成二维码。手机扫码打开网页,用你最熟悉的输入法语音输入(也可以打字)。然后点投递,文字通过局域网传到电脑,自动模拟Ctrl+V粘贴到当前光标位置。需要的话还能自动补一个回车键发送。

image

没有一个多余的硬件。 手机是你出门必备的,输入法是你已经用惯的。不需要蓝牙配对,不需要充电,不需要适应新输入法,不需要交月费。

没有一个多余的步骤。 下载解压,运行,扫码,开始说话。手机锁屏?切后台?不受影响。电脑端没有浮窗遮挡。断开了刷新一下页面就行。

安全。 只在局域网工作,不经过任何外部服务器。带有随机Token鉴权,密码正确才能发送。程序不保存文字,不留历史。

提示,如果你用苹果自带的手机输入法,没有语音识别功能,推荐豆包输入法,语音识别超强,我已经入坑了。

现在的终极工作流

拿起手机小声说三十秒→看一眼识别有没有错误→点发送→AI已经收到了一段完整的思考。

和打字时代最大的区别是:我再也不用「把心里想的东西先精简一半再敲出来」了。

眼睛看到的内容质量变高了,因为人没变懒,只是打字这个瓶颈被拆掉了。

开源自取

GitHub:github.com/alone-tree/TextDrop

如果GitHub上不去用这个
Gitee:gitee.com/alone-tree8642/text-drop

AGPL v3协议,免费开源,解压即用。

个人开发,精力有限,没有做开发者认证,所以下载和首次启用时,可能会出现安全风险警示,点击确认即可。

如果你也有相同的困扰,欢迎拿去用,也欢迎提PR、提Issue。