跳到主要内容

路线图

随着AI模型的准确率的进步和设备性能的提升,可以在本地运行一些模型来解决以往被认为困难的事情。

而语言不通的问题,在可见之年,都是各地区之间沟通的主要阻碍。

DuRT会持续的更新维护下去。

待做任务列表

  • 支持非流式whisper模型,支持更多语言的声音识别 (极高优先级)
  • 增加针对本地的视频或音频生成完整字幕文件的功能 (高优先级) 因为已经实现了基于whisper的识别,这个功能不难实现
  • 使用效果更好的翻译模型 (高优先级)
  • 解决使用某些模型,识别结果无标点符号问题 (中高优先级)
  • 适配更多的流式语音识别模型,提高识别准确率,以及支持更多语言的识别 (中优先级)
  • 增加更多的翻译方式,比如各平台的翻译API、各平台的大模型API
  • 将whisper 变成近乎流式语音识别 (中优先级)
  • 增加麦克风来源选择, 比如选择耳机的麦克风 (中优先级)
  • 支持macos上的Apple Speech Recognition的识别 (中优先级)
  • 支持macos系统的翻译功能(中优先级)
  • 使用大模型来优化整个流程的结果 (中优先级)
  • 支持AppleScript自动化 (中低优先级)
  • 使用whisper自动检测语言,不需要在手动选择语言(中低优先级)
  • 增加内部音频的来源选择,比如只识别某个app所发出的声音 (低优先级) 不确定是否可以实现
  • 支持自定义识别模型 (极低优先级) 这个应该只有极少的用户需要这个功能,并且需要用户对AI模型了解

讨论和建议

如果你有更好的想法和建议,可以通过联系我们来与我们沟通。

开源致谢

本项目借鉴了许多开源项目,感谢下面的项目。