Merge pull request #672 from lhotse-speech/feature/faster-speed-perturbation

pzelasko · web-flow · commit dc0c86bd498d · 2022-04-14T07:27:46.000-04:00
~20x faster speed perturbation
diff --git a/lhotse/augmentation/torchaudio.py b/lhotse/augmentation/torchaudio.py
@@ -114,16 +114,10 @@ class Speed(AudioTransform):
     factor: float
 
     def __call__(self, samples: np.ndarray, sampling_rate: int) -> np.ndarray:
-        check_torchaudio_version()
-        import torchaudio
-
-        sampling_rate = int(sampling_rate)  # paranoia mode
-        effect = [["speed", str(self.factor)], ["rate", str(sampling_rate)]]
-        if isinstance(samples, np.ndarray):
-            samples = torch.from_numpy(samples)
-        augmented, new_sampling_rate = torchaudio.sox_effects.apply_effects_tensor(
-            samples, sampling_rate, effect
+        resampler = get_or_create_resampler(
+            round(sampling_rate * self.factor), sampling_rate
         )
+        augmented = resampler(torch.from_numpy(samples))
         return augmented.numpy()
 
     def reverse_timestamps(
diff --git a/test/augmentation/test_torchaudio.py b/test/augmentation/test_torchaudio.py
@@ -127,7 +127,7 @@ def test_reverb_normalize_output(audio, rir, normalize_output, early_only):
 def test_speed(audio):
     speed = Speed(factor=1.1)
     perturbed = speed(audio, SAMPLING_RATE)
-    assert perturbed.shape == (1, 14545)
+    assert perturbed.shape == (1, 14546)
 
 
 @pytest.mark.parametrize("scale", [0.125, 1.0, 2.0])
@@ -143,7 +143,7 @@ def test_deserialize_transform_speed(audio):
     speed = AudioTransform.from_dict({"name": "Speed", "kwargs": {"factor": 1.1}})
     perturbed_speed = speed(audio, SAMPLING_RATE)
 
-    assert perturbed_speed.shape == (1, 14545)
+    assert perturbed_speed.shape == (1, 14546)
 
 
 def test_deserialize_transform_volume(audio):
@@ -160,7 +160,7 @@ def test_serialize_deserialize_transform_speed(audio):
     speed = AudioTransform.from_dict(data_speed)
     perturbed_speed = speed(audio, SAMPLING_RATE)
 
-    assert perturbed_speed.shape == (1, 14545)
+    assert perturbed_speed.shape == (1, 14546)
 
 
 def test_serialize_deserialize_transform_volume(audio):