improve demo visualization

Flux9665 · Flux9665 · commit afbf183fc8da · 2023-02-23T15:35:29.000+01:00
diff --git a/run_gradio_demo.py b/run_gradio_demo.py
@@ -59,18 +59,28 @@ def __init__(self, gpu_id="cpu", title="Controllable Embeddings", article="", av
                                                        'Chinese Accent',
                                                        'Vietnamese Accent'], type="value",
                                                       value='English Accent', label="Select the Accent of the Speaker"),
+                                          gr.Textbox(lines=3,
+                                                     placeholder="\nThe sliders below control the speaker embedding",
+                                                     value="\nThe sliders below control the speaker embedding",
+                                                     label=" ",
+                                                     show_label=False),
                                           gr.Slider(minimum=0, maximum=available_artificial_voices, step=1,
                                                     value=279,
                                                     label="Random Seed for the artificial Voice"),
-                                          gr.Slider(minimum=0.5, maximum=1.5, step=0.1, value=1.0, label="Duration Scale"),
-                                          gr.Slider(minimum=0.0, maximum=2.0, step=0.1, value=1.0, label="Pause Duration Scale"),
-                                          gr.Slider(minimum=0.0, maximum=2.0, step=0.1, value=1.0, label="Pitch Variance Scale"),
-                                          gr.Slider(minimum=0.0, maximum=2.0, step=0.1, value=1.0, label="Energy Variance Scale"),
                                           gr.Slider(minimum=-50.0, maximum=50.0, step=0.1, value=0.0, label="Femininity / Masculinity"),
                                           gr.Slider(minimum=-30.0, maximum=30.0, step=0.1, value=0.0, label="Sibilance"),
                                           gr.Slider(minimum=-30.0, maximum=30.0, step=0.1, value=0.0, label="Accentuated High / Low Frequencies"),
                                           gr.Slider(minimum=-30.0, maximum=30.0, step=0.1, value=0.0, label="Loudness / Arousal / Calmness"),
-                                          gr.Slider(minimum=-20.0, maximum=20.0, step=0.1, value=0.0, label="Tone / Timbre")
+                                          gr.Slider(minimum=-20.0, maximum=20.0, step=0.1, value=0.0, label="Tone / Timbre"),
+                                          gr.Textbox(lines=3,
+                                                     placeholder="\nThe sliders below directly control the TTS",
+                                                     value="\nThe sliders below directly control the TTS",
+                                                     label=" ",
+                                                     show_label=False),
+                                          gr.Slider(minimum=0.5, maximum=1.5, step=0.1, value=1.0, label="Duration Scale"),
+                                          gr.Slider(minimum=0.0, maximum=2.0, step=0.1, value=1.0, label="Pause Duration Scale"),
+                                          gr.Slider(minimum=0.0, maximum=2.0, step=0.1, value=1.0, label="Pitch Variance Scale"),
+                                          gr.Slider(minimum=0.0, maximum=2.0, step=0.1, value=1.0, label="Energy Variance Scale")
                                           ],
                                   outputs=[gr.Audio(type="numpy", label="Speech"),
                                            gr.Image(label="Visualization")],
@@ -84,16 +94,18 @@ def read(self,
              prompt,
              language,
              accent,
+             ignore_1,
              voice_seed,
-             duration_scaling_factor,
-             pause_duration_scaling_factor,
-             pitch_variance_scale,
-             energy_variance_scale,
              emb1,
              emb2,
              emb3,
              emb5,
-             emb6):
+             emb6,
+             ignore_2,
+             duration_scaling_factor,
+             pause_duration_scaling_factor,
+             pitch_variance_scale,
+             energy_variance_scale):
         sr, wav, fig = self.controllable_ui.read(prompt,
                                                  language,
                                                  accent,