跳到主要内容

使用教程

目前DuRT具有实时语音识别、实时识别结果翻译、支持录音、保存识别结果、识别时复制到剪切板、保存翻译结果,等功能。

这篇文档是关于如何使用DuRT,包括使用前的注意事项和DuRT的主要功能。

语音识别

DuRT目前集成了三种主流的语音识别方式,流式语音识别、非流式语音识别和Apple系统内的语音识别。

下面先给出三种语音识别方式的对比。

识别方式流式非流式Apple
识别效果不错
下载模型流式识别模型Whisper模型不需要下载模型
标点符号不支持支持支持
识别速度实时近乎实时实时
支持语言430+30+
识别过程中切换语言不支持支持支持
仅在本地运行分情况
翻译支持支持支持
保存录音
保存识别结果
保存翻译结果
支持支持支持

三种语音识别效果, 我感觉Apple和Whisper非流式识别效果好。不同的语言会有不同的准确度,可以尝试这三种方式。

权限申请

在使用语音识别时,需要首先设置权限。目前DuRT支持识别设备内语音和麦克风语音。

对于识别设备内音频需要录屏与系统录音权限,需要在设置>隐私与安全>录屏与系统录音,中允许DuRT使用录屏与系统录音。 如下图:

Image description

对于识别麦克风语音需要麦克风权限,需要在设置>隐私与安全>麦克风,中允许DuRT访问麦克风。 如下图:

Image description

保存录音、识别结果、翻译结果需要选择某个目录作为存放的位置,需要在DuRT内的设置页面,设置保存目录。

同时防止权限滥用, DuRT只会在识别运行时,使用录屏或者麦克风权限。

流式语音识别

Image description

音频来源:分为设备内音频和麦克风音频。

识别类别:当使用流式语音识别时,选择流式。

选择识别语言:只能从已下载的流式模型,所支持的语言中选择。

选择模型:选择想要使用的流式模型。

保存音频:开始识别后,将同步保存所监听的音频,保存到所选的目录中。 这个目录可以通过在设置界面进行设置。 如果没有设置,会在开启这个功能时,请求选择保存目录。

保存识别结果:开始识别后,将识别的结果以txt文件的形式保存到所选的目录中。

启用翻译:开始识别后,将识别的结果翻译成对应语言。

选择翻译语言:选择想要翻译成什么语言。

保存翻译结果:开始识别后,将识别所翻译后的结果以txt文件的形式保存到所选目录中。

显示悬浮窗口:以悬浮窗口的形式显示识别结果和翻译结果(如果启用了翻译)。

开始:开始识别。 开始时候会有1~3秒的模型加载过程。

内存占用情况

流式语音识别需要下载对应的流式模型,目前支持的模型大小在200M-500M之间。在运行时,所需要内存大约是模型大小的两倍。

模型情况

目前DuRT支持四种语言的流式模型,英文、中文、韩语、法语。 需要下载对应模型才能使用对应语言的识别。 请查阅模型下载

非流式语音识别

Image description

识别类别:当使用非流式语音识别时,选择非流式。

选择识别间隔:每几秒进行一次语音识别。 目前内置的范围为2-10秒,我感觉设置成3-5秒体验最佳。可以根据自己情况进行设置。

其他的设置与流式语音识别一致,请看上面的解释。

内存占用情况

非流式语音识别需要下载对应的非流式Whisper模型,目前支持的Whisper模型大小在200M-1000M之间。在运行时,所需要内存大约是模型大小的两倍。

模型详情

目前所使用的非流式模型是Whisper模型, 按照大小依次分为tiny,small,base,medium,large,和turbo。

带-en的名称表示只能识别英文。

一般来说越大的模型,识别准确度越好。

Whisper模型支持下面这些语言: 阿拉伯语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、加利西亚语、德语、希腊语、意大利语、日语、韩语、马其顿语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、西班牙语、瑞典语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语。

注意,需要下载Whisper模型才能使用非流式语音识别。 请查阅模型下载

最推荐使用的是whisper-large-v3-turbo模型。

Apple语音识别

Image description

由于Apple语音识别使用的是MacOS系统中的功能。 除了上面两个录屏和麦克风权限歪,还需要申请两个权限。

允许语音识别,在隐私与安全性 > 语音识别 ,允许DuRT使用。 如下图:

Image description

启用键盘听写, 将设置 > 键盘 > 听写 打开。 如下图:

Image description

Apple语音识别 分为在本地运行和服务器运行两种情况,具体区别如下。 这个是Apple所决定的。

本地运行服务器运行
准确度
限制每天请求次数有限制
语言10+50+

需要注意:在服务器运行会将音频数据传给Apple公司的服务器。

在DuRT中,会给出一个指示标识来表示该语言是否支持本地运行。如上图中的运行:本地

在该语言可以在本地运行时,会设置成在本地运行识别。不可以在本地运行时,才会设置成在服务器运行。如果服务器运行的语言识别无法生成结果时,可能就是因为达到了每天的限制。

内存占用情况

Apple的语音识别由于使用的是系统的语音识别服务,启用后的内存占用很少。

模型情况

Apple的语音识别不需要下载模型,只需要授予对应的权限即可。

文本翻译

使用文本翻译,需要首先下载翻译模型,请从下载界面中,下载翻译模型。

使用文本翻译,需要将识别界面中的启用翻译打开,并选择想要翻译成什么语言。 如下图。 在识别过程中,可以切换翻译语言。

Image description

内存占用情况

启用翻译功能后,所占用的内存大概是1.5G。

模型情况

翻译功能需要下载翻译模型才能使用。请查阅模型下载

使用提示

首先需要授权录屏和麦克风权限,来让应用能运行。

DuRT默认内置了whisper-base的非流式识别模型,通过设置识别间隔,可以近乎流式识别30+种语言。

授权系统语音识别和打开键盘的听写功能,能使用Apple的语音识别,这种方式支持的语言范围很多,并且有标点符号。

在下载翻译模型后,可以使用翻译功能。

在下载流式模型后,可以使用专用的流式模型来识别专门的语言。

在下载更大的whisper模型后,可以提高识别的准确度。

在下载Whisper模型和翻译模型后,可以使用Whisper识别和翻译功能。