路线图
随着AI模型的准确率的进步和设备性能的提升,可以在本地运行一些模型来解决以往被认为困难的事情。
而语言不通的问题,在可见之年,都是各地区之间沟通的主要阻碍。
DuRT会持续的更新维护下去。
待做任务列表
- 支持非流式whisper模型,支持更多语言的声音识别 (极高优先级)
- 增加针对本地的视频或音频生成完整字幕文件的功能 (高优先级) 因为已经 实现了基于whisper的识别,这个功能不难实现
- 使用效果更好的翻译模型 (高优先级)
- 解决使用某些模型,识别结果无标点符号问题 (中高优先级)
- 适配更多的流式语音识别模型,提高识别准确率,以及支持更多语言的识别 (中优先级)
- 增加更多的翻译方式,比如各平台的翻译API、各平台的大模型API
- 将whisper 变成近乎流式语音识别 (中优先级)
- 增加麦克风来源选择, 比如选择耳机的麦克风 (中优先级)
- 支持macos上的Apple Speech Recognition的识别 (中优先级)
- 支持macos系统的翻译功能(中优先级)
- 使用大模型来优化整个流程的结果 (中优先级)
- 支持AppleScript自动化 (中低优先级)
- 使用whisper自动检测语言,不需要在手动选择语言(中低优先级)
- 增加内部音频的来源选择,比如只识别某个app所发出的声音 (低优先级) 不确定是否可以实现
- 支持自定义识别模型 (极低优先级) 这个 应该只有极少的用户需要这个功能,并且需要用户对AI模型了解
讨论和建议
如果你有更好的想法和建议,可以通过联系我们来与我们沟通。
开源致谢
本项目借鉴了许多开源项目,感谢下面的项目。