📢 Nova versão para desktop win&mac lançada! Agradecemos o feedback de testes [a documentação está um pouco desatualizada, em constante atualização]
Krillin AI é uma solução abrangente para localização e aprimoramento de áudio e vídeo. Esta ferramenta simples, mas poderosa, combina tradução de áudio e vídeo, dublagem e clonagem de voz, suportando saídas em formatos vertical e horizontal, garantindo uma apresentação perfeita em todas as principais plataformas (Bilibili, Xiaohongshu, Douyin, WeChat Video, Kuaishou, YouTube, TikTok, etc.). Com um fluxo de trabalho de ponta a ponta, o Krillin AI pode transformar materiais brutos em conteúdo pronto para uso em várias plataformas com apenas alguns cliques.
🎯 Início com um clique: Sem configuração de ambiente complexa, instalação automática de dependências, pronto para uso imediatamente, nova versão para desktop, mais conveniente!
📥 Obtenção de Vídeo: Suporta download via yt-dlp ou upload de arquivos locais
📜 Reconhecimento Preciso: Reconhecimento de voz de alta precisão baseado no Whisper
🧠 Segmentação Inteligente: Uso de LLM para segmentação e alinhamento de legendas
🔄 Substituição de Termos: Substituição de vocabulário especializado com um clique
🌍 Tradução Profissional: Tradução em nível de parágrafo baseada em LLM, mantendo a coerência semântica
🎙️ Clonagem de Voz: Oferece vozes selecionadas da CosyVoice ou clonagem de vozes personalizadas
🎬 Composição de Vídeo: Processamento automático de vídeos em formato vertical e horizontal e layout de legendas
A imagem abaixo mostra a importação de um vídeo local de 46 minutos, com o arquivo de legendas gerado após a execução com um clique, sem ajustes manuais. Sem faltas, sobreposições, com pausas naturais e qualidade de tradução muito alta.
subtitle_translation.mp4 |
tts.mp4 |
agi.mp4 |
Todos os modelos locais na tabela abaixo suportam instalação automática de arquivos executáveis + arquivos de modelo, você só precisa escolher, o KrillinAI cuida do resto.
Fonte de Serviço | Plataformas Suportadas | Opções de Modelo | Local/Nuvem | Observações |
---|---|---|---|---|
OpenAI Whisper | Todas as plataformas | - | Nuvem | Rápido e eficaz |
FasterWhisper | Windows/Linux | tiny /medium /large-v2 (recomendado medium+) |
Local | Mais rápido, sem custos de nuvem |
WhisperKit | macOS (apenas para chips M) | large-v2 |
Local | Otimização nativa para chips Apple |
Aliyun ASR | Todas as plataformas | - | Nuvem | Evita problemas de rede na China continental |
✅ Compatível com todos os serviços de modelos de linguagem grande em nuvem/local que atendem às especificações da API OpenAI, incluindo, mas não se limitando a:
- OpenAI
- DeepSeek
- Tongyi Qianwen
- Modelos de código aberto implantados localmente
- Outros serviços de API compatíveis com o formato OpenAI
Idiomas de entrada suportados: Chinês, Inglês, Japonês, Alemão, Turco, Coreano, Russo, Malaio (em constante aumento)
Idiomas de tradução suportados: Inglês, Chinês, Russo, Espanhol, Francês e outros 101 idiomas
Primeiro, baixe o arquivo executável correspondente ao seu sistema operacional na seção Release, siga o tutorial abaixo para escolher entre a versão desktop ou não desktop, e coloque em uma pasta vazia. Baixe o software em uma pasta vazia, pois ele gerará alguns diretórios após a execução, o que facilita a gestão.
【Se for a versão desktop, ou seja, o arquivo release que contém desktop, veja aqui】
A versão desktop é nova e foi lançada para resolver o problema de novos usuários que têm dificuldade em editar corretamente os arquivos de configuração, ainda há muitos bugs, em constante atualização.
- Clique duas vezes no arquivo para começar a usar (a versão desktop também precisa de configuração, que deve ser feita dentro do software)
【Se for a versão não desktop, ou seja, o arquivo release que não contém desktop, veja aqui】
A versão não desktop é a versão inicial, a configuração é mais complexa, mas a funcionalidade é estável, adequada para implantação em servidores, pois fornece uma interface de usuário via web.
- Crie uma pasta
config
dentro da pasta, e então crie um arquivoconfig.toml
dentro da pastaconfig
, copie o conteúdo do arquivoconfig-example.toml
que está no diretórioconfig
e preencha com suas informações de configuração. - Clique duas vezes ou execute o arquivo executável no terminal para iniciar o serviço
- Abra o navegador e digite
http://127.0.0.1:8888
para começar a usar (substitua 8888 pela porta que você preencheu no arquivo de configuração)
【Se for a versão desktop, ou seja, o arquivo release que contém desktop, veja aqui】
Atualmente, devido a problemas de assinatura, a versão desktop não pode ser executada com um clique ou instalada via dmg, é necessário confiar manualmente no aplicativo, o método é o seguinte:
- No terminal, abra o diretório onde o arquivo executável (supondo que o nome do arquivo seja KrillinAI_1.0.0_desktop_macOS_arm64) está localizado
- Execute os seguintes comandos:
sudo xattr -cr ./KrillinAI_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_desktop_macOS_arm64
./KrillinAI_1.0.0_desktop_macOS_arm64
【Se for a versão não desktop, ou seja, o arquivo release que não contém desktop, veja aqui】
Este software não foi assinado, portanto, ao executá-lo no macOS, após concluir a configuração dos arquivos na "etapa básica", você ainda precisará confiar manualmente no aplicativo, o método é o seguinte:
- No terminal, abra o diretório onde o arquivo executável (supondo que o nome do arquivo seja KrillinAI_1.0.0_macOS_arm64) está localizado
- Execute os seguintes comandos:
O serviço será iniciado
sudo xattr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64 sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64 ./KrillinAI_1.0.0_macOS_arm64
Este projeto suporta implantação com Docker, consulte as Instruções de Implantação com Docker
Se você encontrar problemas ao baixar vídeos
Consulte as Instruções de Configuração de Cookies para configurar suas informações de Cookie.
A maneira mais rápida e conveniente de configurar:
- Escolha
openai
paratranscription_provider
ellm_provider
, assim você só precisa preencheropenai.apikey
nas três categorias de configuração abaixo:openai
,local_model
,aliyun
para realizar a tradução de legendas. (app.proxy
,model
eopenai.base_url
podem ser preenchidos conforme sua situação)
Configuração para usar modelos de reconhecimento de linguagem local (não suportado no macOS) (equilibrando custo, velocidade e qualidade):
- Preencha
transcription_provider
comfasterwhisper
ellm_provider
comopenai
, assim você só precisa preencheropenai.apikey
elocal_model.faster_whisper
nas três categorias de configuração abaixo:openai
,local_model
para realizar a tradução de legendas, o modelo local será baixado automaticamente. (app.proxy
eopenai.base_url
conforme acima)
As seguintes situações exigem configuração do Aliyun:
- Se
llm_provider
estiver preenchido comaliyun
, será necessário usar o serviço de modelo grande do Aliyun, portanto, a configuração do itemaliyun.bailian
é necessária. - Se
transcription_provider
estiver preenchido comaliyun
, ou se a função "dublagem" estiver ativada ao iniciar a tarefa, será necessário usar o serviço de voz do Aliyun, portanto, a configuração do itemaliyun.speech
é necessária. - Se a função "dublagem" estiver ativada e um áudio local for enviado para clonagem de voz, será necessário usar o serviço de armazenamento em nuvem OSS do Aliyun, portanto, a configuração do item
aliyun.oss
é necessária.
Ajuda de configuração do Aliyun: Instruções de Configuração do Aliyun
Por favor, consulte as Perguntas Frequentes
- Não envie arquivos desnecessários, como .vscode, .idea, etc., use .gitignore para filtrá-los.
- Não envie config.toml, mas sim use config-example.toml para enviar.
- Junte-se ao nosso grupo QQ para tirar dúvidas: 754069680
- Siga nossas contas de mídia social, Bilibili, onde compartilhamos conteúdo de qualidade na área de tecnologia AI diariamente.