How to create or adapt vocab.json for Bulgarian language with XTTS v2? #4193
Replies: 6 comments 8 replies
-
|
You could check https://github.com/anhnh2002/XTTSv2-Finetuning-for-New-Languages |
Beta Was this translation helpful? Give feedback.
-
|
Hi eginhard, Thank you so much for your suggestion! I really appreciate the help. I will definitely check out the repository you mentioned. It looks like exactly what I need! Best regards, |
Beta Was this translation helpful? Give feedback.
-
|
Няма нищо да се получи. Ако ползваш същият скрипт който и азq той не работи с български. Пробвах да дам BG и всеки път се срива дори да съм му задал външен модел който е обучен макар и лошо на бългаски. Самият Coqui не поддържа български явно. Не приема параметъра BG за валиден. Има малък модел с поддръжка на български, ако знаеш как да го дообучиш по има смисъл може би. Този говори български. https://huggingface.co/facebook/mms-tts-bul |
Beta Was this translation helpful? Give feedback.
-
|
Е, това не звучи толкова зле, но ако ползваш Coqui тя е ограничена до няколко езика. В скриптовена на библютеката Coqui има специални настройки за тези езици в който не е включен български. Освен това може би не чете правилно и надписите понеже може би руският и българският ползват различна кодировка за символите. Може би с промяна там и в данните на модела ти може да се прескочи това, но не съм го пробвал понеже ми дойде като идея преди малко. В данните на модела да го отбележиш като "ru", а не като "bg". Ако отвориш папката Lib\site-packages\TTS\tts\layers\xtts и там файла tokenizer.py с текстов редактор ще видиш доста данни относно поддържаните езици като примерно за всеки как да чете # правилно или 20$ да се чете като двайсет долара и подбни неща. Такива неща се нужни явно както има и нещо за може би меки съгласни или думи като Щ при нас което се звучи като 2 букви. Вероятно за това се обучава грешно. Редакцита може би на файла, а може да има нужда и от други за руски като се коригира там да са данни за български ще реши проблема. Но както казах не съм го тествал. Това примерно не го разбрах какво е точно, но сигурно е важно: "ru": re.compile(r"([0-9]+)(-й|-я|-е|-ое|-ье|-го)"), |
Beta Was this translation helpful? Give feedback.
-
|
А още нещо. В config.json има отбелязано "bg" за модел обучен на български което вероятно също трябва да се смени на "ru" за да работи с български при обучението. |
Beta Was this translation helpful? Give feedback.
-
|
Не, имам предвид да го излъжеш, че го учиш на руски така. Като пробвам с "bg" ми дава грешка. Аз ползвам това за дообучение: https://github.com/daswer123/xtts-finetune-webui то също ползва: Coqui и прави база данни дори само, но аз я коригирам или заменям понеже ползва fast_whisper който не работи с български. Използвам Vibe за направи субтитри от аудиото и ползвам питон скрипт който ми написа чатбота на Гугъл Джемини да използва текста и аудиото да генерира база нанни. Ползвам готов защото няма как от нула. За това се иска твърде много дани и познания в машинното обучение каквите не притежавам. |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
-
Hi everyone,
I'm working on fine-tuning XTTS v2.0.1 using a Bulgarian dataset in the LJSpeech format. Everything is set up and training works fine with the default
vocab.jsonprovided by Coqui.Currently, I'm using the Russian
vocab.json(withlanguage="ru"in the config), but the generated speech has a very strong Russian accent, even though the speaker reference is clearly Bulgarian. I assume this might be because the tokenizer wasn't trained specifically for Bulgarian.So my questions are:
vocab.jsonfor Bulgarian?Thanks a lot in advance! 🙏
Best,
vnojarov
P.S. My dataset contains around 3 hours of single-speaker Bulgarian audio and transcriptions, stored in LJSpeech format.
Beta Was this translation helpful? Give feedback.
All reactions