跳到主要内容

使用教程

目前DuRT具有实时语音识别、文件转录、文本处理、字幕编辑、结果保存等功能。

下面简单介绍如何使用DuRT,包括使用前的注意事项和DuRT的主要功能。

实时语音识别

效果图如下:

点击展开图片
Image description

DuRT目前支持两种实时语音识别,Apple语音识别和Whisper识别。

识别方式AppleWhisper
识别效果
下载模型不需要下载模型Whisper模型
标点符号支持支持
识别速度实时近乎实时
支持语言有限30+
识别过程中切换语言不支持支持
仅在本地运行

Apple语音识别

Apple识别使用macos系统内置的语音识别服务。

该语音识别是实时将语音识别成文本。

缺点是支持语言有限。 需要在设置界面,下载语言包来得到所支持的语言。

Whisper识别

DuRT通过设计Whisper识别,将Whisper语音识别做成近乎实时的语音识别。

优点是支持几十种语言,并且可以无缝识别一个视频中不同的语种。

缺点是需要下载和运行模型、会有2-3秒的延迟。

文件转录

在文本转录界面,用户可以通过选择或者拖拽的方式,来选择音视频文件。

文件转录仅支持Whisper语音识别来得到识别结果。

效果图如下:

点击展开图片
Image description

文本处理

文本处理服务,借助大模型,实现任何想要的效果,比如翻译、润色、回答问题等等。

在前面实时语音识别和文件转录,都可以加入文本处理服务,来得到对应的结果,显示和保存。

服务配置

在服务配置界面,用户可以管理语音服务和文本处理服务。

效果图如下

点击展开图片
Image description

权限申请

在使用语音识别时,需要首先设置权限。目前DuRT支持识别设备内语音和麦克风语音。

对于识别设备内音频需要录屏与系统录音权限,需要在设置>隐私与安全>录屏与系统录音,中允许DuRT使用录屏与系统录音。 如下图:

点击展开图片
Image description

对于识别麦克风语音需要麦克风权限,需要在设置>隐私与安全>麦克风,中允许DuRT访问麦克风。 如下图:

点击展开图片
Image description

保存录音、识别结果、翻译结果需要选择某个目录作为存放的位置,需要在DuRT内的设置页面,设置保存目录。

同时防止权限滥用, DuRT只会在识别运行时,使用录屏或者麦克风权限。

由于Apple语音识别使用的是MacOS系统中的功能。 除了上面两个录屏和麦克风权限外,还需要申请两个权限。

允许语音识别,在隐私与安全性 > 语音识别 ,允许DuRT使用。 如下图:

点击展开图片
Image description

启用键盘听写, 将设置 > 键盘 > 听写 打开。 如下图:

点击展开图片
Image description

内存占用情况

Whisper语音识别需要下载对应的Whisper模型,在运行时,所需要内存大约是模型大小的两倍。

模型详情

Whisper模型, 按照大小依次分为tiny,small,base,medium,large,和turbo。

一般来说越大的模型,识别准确度越好。

Whisper模型支持下面这些语言: 阿拉伯语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、加利西亚语、德语、希腊语、意大利语、日语、韩语、马其顿语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、西班牙语、瑞典语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语。

推荐使用的是whisper-large-v3-turbo模型。

下载Whisper模型,请查阅模型下载