Merge pull request #300 from snakers4/tts_v5

snakers4 · web-flow · commit 16f8df1fca2a · 2025-10-30T18:19:20.000+03:00
V5
diff --git a/README.md b/README.md
@@ -130,11 +130,11 @@ Basic dependencies for Colab examples:
 [![Open on Torch Hub](https://img.shields.io/badge/Torch-Hub-red?logo=pytorch&style=for-the-badge)](https://pytorch.org/hub/snakers4_silero-models_tts/)
 
 ```python
-# V4
+# V5
 import torch
 
 language = 'ru'
-model_id = 'v4_ru'
+model_id = 'v5_ru'
 sample_rate = 48000
 speaker = 'xenia'
 device = torch.device('cpu')
@@ -156,7 +156,7 @@ audio = model.apply_tts(text=example_text,
 - Please see the detailed examples in Colab;
 
 ```python
-# V4
+# V5
 import os
 import torch
 
@@ -165,13 +165,13 @@ torch.set_num_threads(4)
 local_file = 'model.pt'
 
 if not os.path.isfile(local_file):
-    torch.hub.download_url_to_file('https://models.silero.ai/models/tts/ru/v4_ru.pt',
+    torch.hub.download_url_to_file('https://models.silero.ai/models/tts/ru/v5_ru.pt',
                                    local_file)  
 
 model = torch.package.PackageImporter(local_file).load_pickle("tts_models", "model")
 model.to(device)
 
-example_text = 'В недрах тундры выдры в г+етрах т+ырят в вёдра ядра кедров.'
+example_text = 'Меня зовут Лева Королев. Я из готов. И я уже готов открыть все ваши замки любой сложности!'
 sample_rate = 48000
 speaker='baya'
 
diff --git a/examples_tts.ipynb b/examples_tts.ipynb
@@ -81,6 +81,130 @@
     "    print(f'Available models for {lang}: {_models}')"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "8b37b3d0",
+   "metadata": {},
+   "source": [
+    "## V5"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "71bebc98",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import torch\n",
+    "\n",
+    "language = 'ru'\n",
+    "model_id = 'v5_ru'\n",
+    "device = torch.device('cpu')\n",
+    "\n",
+    "model, example_text = torch.hub.load(repo_or_dir='snakers4/silero-models',\n",
+    "                                     model='silero_tts',\n",
+    "                                     language=language,\n",
+    "                                     speaker=model_id)\n",
+    "model.to(device)  # gpu or cpu"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "4782713d",
+   "metadata": {},
+   "source": [
+    "### Speakers"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8e8afb06",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model.speakers"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "3b7cf618",
+   "metadata": {},
+   "source": [
+    "### Text"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6875417c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "sample_rate = 48000\n",
+    "speaker = 'xenia'\n",
+    "put_accent=True\n",
+    "put_yo=True\n",
+    "put_stress_homo=True\n",
+    "put_yo_homo=True\n",
+    "\n",
+    "example_text = 'Меня зовут Лева Королев. Я из готов. И я уже готов открыть все ваши замки любой сложности!'\n",
+    "\n",
+    "audio = model.apply_tts(text=example_text,\n",
+    "                        speaker=speaker,\n",
+    "                        sample_rate=sample_rate,\n",
+    "                        put_accent=put_accent,\n",
+    "                        put_yo=put_yo,\n",
+    "                        put_stress_homo=put_stress_homo,\n",
+    "                        put_yo_homo=put_yo_homo)\n",
+    "print(example_text)\n",
+    "display(Audio(audio, rate=sample_rate))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "e0ce7df5",
+   "metadata": {},
+   "source": [
+    "### SSML"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "e9e159a2",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "ssml_sample = \"\"\"\n",
+    "              <speak>\n",
+    "              <p>\n",
+    "                  Когда я просыпаюсь, <prosody rate=\"x-slow\">я говорю довольно медленно</prosody>.\n",
+    "                  Пот+ом я начинаю говорить своим обычным голосом,\n",
+    "                  <prosody pitch=\"x-high\"> а могу говорить тоном выше </prosody>,\n",
+    "                  или <prosody pitch=\"x-low\">наоборот, ниже</prosody>.\n",
+    "                  Пот+ом, если повезет – <prosody rate=\"fast\">я могу говорить и довольно быстро.</prosody>\n",
+    "                  А еще я умею делать паузы любой длины, например, две секунды <break time=\"2000ms\"/>.\n",
+    "                  <p>\n",
+    "                    Также я умею делать паузы между параграфами.\n",
+    "                  </p>\n",
+    "                  <p>\n",
+    "                    <s>И также я умею делать паузы между предложениями</s>\n",
+    "                    <s>Вот например как сейчас</s>\n",
+    "                  </p>\n",
+    "              </p>\n",
+    "              </speak>\n",
+    "              \"\"\"\n",
+    "\n",
+    "sample_rate = 48000\n",
+    "speaker = 'xenia'              \n",
+    "audio = model.apply_tts(ssml_text=ssml_sample,\n",
+    "                        speaker=speaker,\n",
+    "                        sample_rate=sample_rate)\n",
+    "display(Audio(audio, rate=sample_rate))"
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "aebc6429",
@@ -563,7 +687,45 @@
    "source": [
     "#@title Install dependencies\n",
     "\n",
-    "!pip install -q torch==1.10"
+    "!pip install -q torch==1.12"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "20cf87d9",
+   "metadata": {},
+   "source": [
+    "## V5"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "832b0ceb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "import torch\n",
+    "\n",
+    "device = torch.device('cpu')\n",
+    "torch.set_num_threads(4)\n",
+    "local_file = 'model.pt'\n",
+    "\n",
+    "if not os.path.isfile(local_file):\n",
+    "    torch.hub.download_url_to_file('https://models.silero.ai/models/tts/ru/v5_ru.pt',\n",
+    "                                   local_file)  \n",
+    "\n",
+    "model = torch.package.PackageImporter(local_file).load_pickle(\"tts_models\", \"model\")\n",
+    "model.to(device)\n",
+    "\n",
+    "example_text = 'Меня зовут Лева Королев. Я из готов. И я уже готов открыть все ваши замки любой сложности!'\n",
+    "sample_rate = 48000\n",
+    "speaker='baya'\n",
+    "\n",
+    "audio_paths = model.save_wav(text=example_text,\n",
+    "                             speaker=speaker,\n",
+    "                             sample_rate=sample_rate)"
    ]
   },
   {
@@ -861,4 +1023,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 5
-}
+}
diff --git a/src/silero/silero.py b/src/silero/silero.py
@@ -74,7 +74,7 @@ def silero_tts(language='en',
     assert language == speaker_language[speaker], f"Incorrect language '{language}' for this speaker, please specify '{speaker_language[speaker]}'"
 
     model_conf = models.tts_models[language][speaker].latest
-    if '_v2' in speaker or '_v3' in speaker or 'v3_' in speaker or 'v4_' in speaker:
+    if '_v2' in speaker or '_v3' in speaker or 'v3_' in speaker or 'v4_' in speaker or 'v5_' in speaker:
         from torch import package
         model_url = model_conf.package
         model_dir = os.path.join(os.path.dirname(__file__), "model")