Skip to content

建议增加 SenseVoice/Paraformer 作为本地转录后端 #17

Description

@LauraGPT

你好,我看了 MioSub 当前 README 和代码里的转录链路:项目已经支持 OpenAI Whisper / 本地 whisper.cpp,并且定位很适合视频、播客、电台、有声书等字幕生成场景。

想建议增加一个可选的 FunASR 系列本地转录后端,例如 SenseVoice 或 Paraformer。

可能的价值:

  • 中文、日语、英文混合字幕场景更常见,SenseVoice 对中日韩英/粤语场景比较友好;
  • Paraformer 在中文长音频转录上速度和准确率都不错;
  • 可以作为本地 Whisper 的补充,不需要替换现有默认方案;
  • 对 B 站、播客、电台、课程视频这类中文内容,可能减少后续 Gemini 校正/润色压力;
  • 后续也方便和现有时间轴对齐、说话人标注、字幕编辑流程组合。

一个比较轻量的接入方式:

  1. 在设置里新增 FunASR / SenseVoice / Paraformer 本地转录选项;
  2. 先支持外部本地服务地址或命令行调用,避免一开始就内置模型下载;
  3. 输出保持和当前 Whisper 转录结果一致,继续复用现有 refinement/alignment/translation pipeline;
  4. 文档里说明推荐场景:中文/中英混合/日语字幕,以及长音频转录。

如果你觉得方向合适,我可以后续帮忙整理更具体的接口草案或测试样例。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions