你好,我看了 MioSub 当前 README 和代码里的转录链路:项目已经支持 OpenAI Whisper / 本地 whisper.cpp,并且定位很适合视频、播客、电台、有声书等字幕生成场景。
想建议增加一个可选的 FunASR 系列本地转录后端,例如 SenseVoice 或 Paraformer。
可能的价值:
- 中文、日语、英文混合字幕场景更常见,SenseVoice 对中日韩英/粤语场景比较友好;
- Paraformer 在中文长音频转录上速度和准确率都不错;
- 可以作为本地 Whisper 的补充,不需要替换现有默认方案;
- 对 B 站、播客、电台、课程视频这类中文内容,可能减少后续 Gemini 校正/润色压力;
- 后续也方便和现有时间轴对齐、说话人标注、字幕编辑流程组合。
一个比较轻量的接入方式:
- 在设置里新增
FunASR / SenseVoice / Paraformer 本地转录选项;
- 先支持外部本地服务地址或命令行调用,避免一开始就内置模型下载;
- 输出保持和当前 Whisper 转录结果一致,继续复用现有 refinement/alignment/translation pipeline;
- 文档里说明推荐场景:中文/中英混合/日语字幕,以及长音频转录。
如果你觉得方向合适,我可以后续帮忙整理更具体的接口草案或测试样例。
你好,我看了 MioSub 当前 README 和代码里的转录链路:项目已经支持 OpenAI Whisper / 本地 whisper.cpp,并且定位很适合视频、播客、电台、有声书等字幕生成场景。
想建议增加一个可选的 FunASR 系列本地转录后端,例如 SenseVoice 或 Paraformer。
可能的价值:
一个比较轻量的接入方式:
FunASR / SenseVoice / Paraformer本地转录选项;如果你觉得方向合适,我可以后续帮忙整理更具体的接口草案或测试样例。