使用教程

目前DuRT具有实时语音识别、文件转录、文本处理、字幕编辑、结果保存等功能。

下面简单介绍如何使用DuRT，包括使用前的注意事项和DuRT的主要功能。

实时语音识别

效果图如下：

点击展开图片

DuRT目前支持两种实时语音识别，Apple语音识别和Whisper识别。

识别方式	Apple	Whisper
识别效果	好	好
下载模型	不需要下载模型	Whisper模型
标点符号	支持	支持
识别速度	实时	近乎实时
支持语言	有限	30+
识别过程中切换语言	不支持	支持
仅在本地运行	是	是

Apple语音识别

Apple识别使用macos系统内置的语音识别服务。

该语音识别是实时将语音识别成文本。

缺点是支持语言有限。需要在设置界面，下载语言包来得到所支持的语言。

Whisper识别

DuRT通过设计Whisper识别，将Whisper语音识别做成近乎实时的语音识别。

优点是支持几十种语言，并且可以无缝识别一个视频中不同的语种。

缺点是需要下载和运行模型、会有2-3秒的延迟。

文件转录

在文本转录界面，用户可以通过选择或者拖拽的方式，来选择音视频文件。

文件转录仅支持Whisper语音识别来得到识别结果。

效果图如下：

点击展开图片

文本处理

文本处理服务，借助大模型，实现任何想要的效果，比如翻译、润色、回答问题等等。

在前面实时语音识别和文件转录，都可以加入文本处理服务，来得到对应的结果，显示和保存。

服务配置

在服务配置界面，用户可以管理语音服务和文本处理服务。

效果图如下

点击展开图片

权限申请

在使用语音识别时，需要首先设置权限。目前DuRT支持识别设备内语音和麦克风语音。

对于识别设备内音频需要录屏与系统录音权限，需要在设置>隐私与安全>录屏与系统录音，中允许DuRT使用录屏与系统录音。如下图：

点击展开图片

对于识别麦克风语音需要麦克风权限，需要在设置>隐私与安全>麦克风，中允许DuRT访问麦克风。如下图：

点击展开图片

保存录音、识别结果、翻译结果需要选择某个目录作为存放的位置，需要在DuRT内的设置页面，设置保存目录。

同时防止权限滥用， DuRT只会在识别运行时，使用录屏或者麦克风权限。

由于Apple语音识别使用的是MacOS系统中的功能。除了上面两个录屏和麦克风权限外，还需要申请两个权限。

允许语音识别，在隐私与安全性 > 语音识别 ，允许DuRT使用。如下图：

点击展开图片

启用键盘听写，将设置 > 键盘 > 听写 打开。如下图：

点击展开图片

内存占用情况

Whisper语音识别需要下载对应的Whisper模型，在运行时，所需要内存大约是模型大小的两倍。

模型详情

Whisper模型，按照大小依次分为tiny,small,base,medium,large,和turbo。

一般来说越大的模型，识别准确度越好。

Whisper模型支持下面这些语言：阿拉伯语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、加利西亚语、德语、希腊语、意大利语、日语、韩语、马其顿语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、西班牙语、瑞典语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语。

推荐使用的是whisper-large-v3-turbo模型。

下载Whisper模型，请查阅模型下载。

实时语音识别​

Apple语音识别​

Whisper识别​

文件转录​

文本处理​

服务配置​

权限申请​

内存占用情况​

模型详情​

实时语音识别

Apple语音识别

Whisper识别

文件转录

文本处理

服务配置

权限申请

内存占用情况

模型详情