How to create or adapt vocab.json for Bulgarian language with XTTS v2? #4193

vnojarov · 2025-04-16T10:51:49Z

vnojarov
Apr 16, 2025

Hi everyone,

I'm working on fine-tuning XTTS v2.0.1 using a Bulgarian dataset in the LJSpeech format. Everything is set up and training works fine with the default vocab.json provided by Coqui.

Currently, I'm using the Russian vocab.json (with language="ru" in the config), but the generated speech has a very strong Russian accent, even though the speaker reference is clearly Bulgarian. I assume this might be because the tokenizer wasn't trained specifically for Bulgarian.

So my questions are:

Is it necessary to create a new vocab.json for Bulgarian?
If yes, what's the recommended way to generate it?
Can I reuse the default tokenizer, or should I retrain a tokenizer specifically for Bulgarian?
Are there any tools/scripts from the TTS repo or external libraries you'd recommend?

Thanks a lot in advance! 🙏

Best,
vnojarov

P.S. My dataset contains around 3 hours of single-speaker Bulgarian audio and transcriptions, stored in LJSpeech format.

eginhard · 2025-05-01T11:30:20Z

eginhard
May 1, 2025

You could check https://github.com/anhnh2002/XTTSv2-Finetuning-for-New-Languages

0 replies

vnojarov · 2025-05-04T07:58:46Z

vnojarov
May 4, 2025
Author

Hi eginhard,

Thank you so much for your suggestion! I really appreciate the help. I will definitely check out the repository you mentioned. It looks like exactly what I need!

Best regards,
vnojarov

0 replies

batvanio01 · 2025-05-10T18:23:04Z

batvanio01
May 10, 2025

Няма нищо да се получи. Ако ползваш същият скрипт който и азq той не работи с български. Пробвах да дам BG и всеки път се срива дори да съм му задал външен модел който е обучен макар и лошо на бългаски. Самият Coqui не поддържа български явно. Не приема параметъра BG за валиден. Има малък модел с поддръжка на български, ако знаеш как да го дообучиш по има смисъл може би. Този говори български. https://huggingface.co/facebook/mms-tts-bul

1 reply

vnojarov May 11, 2025
Author

https://drive.google.com/file/d/169A_FgCx3HAR6gyTnvH4rzkNRdqUeBj6/view?usp=sharing това ми е постижнието до сега с този модел https://github.com/anhnh2002/XTTSv2-Finetuning-for-New-Languages, като съм създал в vocab.json, dict_keys(['bg']).

batvanio01 · 2025-05-11T09:49:51Z

batvanio01
May 11, 2025

Е, това не звучи толкова зле, но ако ползваш Coqui тя е ограничена до няколко езика. В скриптовена на библютеката Coqui има специални настройки за тези езици в който не е включен български. Освен това може би не чете правилно и надписите понеже може би руският и българският ползват различна кодировка за символите. Може би с промяна там и в данните на модела ти може да се прескочи това, но не съм го пробвал понеже ми дойде като идея преди малко. В данните на модела да го отбележиш като "ru", а не като "bg". Ако отвориш папката Lib\site-packages\TTS\tts\layers\xtts и там файла tokenizer.py с текстов редактор ще видиш доста данни относно поддържаните езици като примерно за всеки как да чете # правилно или 20$ да се чете като двайсет долара и подбни неща. Такива неща се нужни явно както има и нещо за може би меки съгласни или думи като Щ при нас което се звучи като 2 букви. Вероятно за това се обучава грешно. Редакцита може би на файла, а може да има нужда и от други за руски като се коригира там да са данни за български ще реши проблема. Но както казах не съм го тествал. Това примерно не го разбрах какво е точно, но сигурно е важно: "ru": re.compile(r"([0-9]+)(-й|-я|-е|-ое|-ье|-го)"),

0 replies

batvanio01 · 2025-05-11T10:03:03Z

batvanio01
May 11, 2025

А още нещо. В config.json има отбелязано "bg" за модел обучен на български което вероятно също трябва да се смени на "ru" за да работи с български при обучението.

2 replies

vnojarov May 11, 2025
Author

"ru" не работи трябва с български datasets да си обучиш vocab,json да ползва български фонеми, с "ru" имаш тежъ руски акцент.
https://github.com/anhnh2002/XTTSv2-Finetuning-for-New-Languages тук е направено за виетнамски, трябва да си го нагласиш за български.

vnojarov May 11, 2025
Author

Всъщност не знам какви цели гониш, да обучаваш нов глас на български или да ползваш някакъв готов с лошо качество?

batvanio01 · 2025-05-11T10:45:08Z

batvanio01
May 11, 2025

Не, имам предвид да го излъжеш, че го учиш на руски така. Като пробвам с "bg" ми дава грешка. Аз ползвам това за дообучение: https://github.com/daswer123/xtts-finetune-webui то също ползва: Coqui и прави база данни дори само, но аз я коригирам или заменям понеже ползва fast_whisper който не работи с български. Използвам Vibe за направи субтитри от аудиото и ползвам питон скрипт който ми написа чатбота на Гугъл Джемини да използва текста и аудиото да генерира база нанни.

Ползвам готов защото няма как от нула. За това се иска твърде много дани и познания в машинното обучение каквите не притежавам.

5 replies

vnojarov May 11, 2025
Author

Пробвай това добре работи с българско аудио git clone https://github.com/ggml-org/whisper.cpp.git

batvanio01 May 11, 2025

Благодаря! Пробвал съм го и е сложно за работа, но имам сходно което е лесно за ползване, но базата с дани е най-малкият проблем. Аз ползвам малък аудио файл защото с около 8 мин аудио дообучението отнема 6 часа някъде. Явно твоят скрипт е по-добре настроен или имаш доста солидна мощ щом обработваш 2ч аудио. Аз съм с rtx 4060 и 64Gb RAM. За обучение от нула се иска десетки или стотици часове аудио и познания по машинно обучение. Поне така каза Джемини и му вярвам. TTS също има поне два модела специално за български. tts_models/bg/cv/vits и още един, но не помня кой точно.

vnojarov May 11, 2025
Author

Базата ти е най-важното нещо, за да получиш добри резултати.

batvanio01 May 11, 2025

Имам предвид, че намирането на данни и изгражането не е толкова сложно като самото обучение. Това изглежда интересно: https://www.youtube.com/watch?v=GmketyZW2c4 Показва добавяне на нов език. В случая японски.

batvanio01 May 13, 2025

Някой е постигнал успех или поне частичен, преди време точно с българският. Ти какъв тип обучение използваш? От къде намери скриптовете да дообучението? #3229 Тук някой е намерил напредък с българският в xtts.

How to create or adapt vocab.json for Bulgarian language with XTTS v2? #4193

Uh oh!

Replies: 6 comments · 8 replies

Uh oh!

Uh oh!

vnojarov May 4, 2025 Author

Uh oh!

Uh oh!

vnojarov May 11, 2025 Author

Uh oh!

Uh oh!

Uh oh!

vnojarov May 11, 2025 Author

Uh oh!

vnojarov May 11, 2025 Author

Uh oh!

Uh oh!

Uh oh!

vnojarov May 11, 2025 Author

Uh oh!

Uh oh!

vnojarov May 11, 2025 Author

Uh oh!

Uh oh!

Replies: 6 comments 8 replies

vnojarov
May 4, 2025
Author

vnojarov May 11, 2025
Author

vnojarov May 11, 2025
Author

vnojarov May 11, 2025
Author

vnojarov May 11, 2025
Author

vnojarov May 11, 2025
Author