cleaner call to ffmpeg

DavidDoukhan · DavidDoukhan · commit d5307c0b2646 · 2025-09-19T14:02:49.000+02:00
update of README and setup.py to mention inaGVAD
diff --git a/README.md b/README.md
@@ -104,6 +104,21 @@ inaSpeechSegmenter has been presented at the IEEE International Conference on Ac
 }
 ```
 
+inaSpeechSegmenter was ranked #1 6 open-source VAD system on a French TV and radio benchmark : LIUM_SpkDiarization, Pyannote, Rvad, Silero, Speechbrain
+```bibtex
+@inproceedings{doukhan-etal-2024-inagvad,
+    title = "{I}na{GVAD} : A Challenging {F}rench {TV} and Radio Corpus Annotated for Speech Activity Detection and Speaker Gender Segmentation",
+    author = "Doukhan, David  and Maertens, Christine  and Le Personnic, William  and Speroni, Ludovic  and Dehak, Reda",
+    booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
+    month = may,
+    year = "2024",
+    address = "Torino, Italia",
+    publisher = "ELRA and ICCL",
+    url = "https://aclanthology.org/2024.lrec-main.785/",
+    pages = "8963--8974",
+}
+```
+
 inaSpeechSegmenter won [MIREX 2018 speech detection challenge](http://www.music-ir.org/mirex/wiki/2018:Music_and_or_Speech_Detection_Results)
 Details on the speech detection submodule can be found below:
 
diff --git a/inaSpeechSegmenter/io.py b/inaSpeechSegmenter/io.py
@@ -24,12 +24,12 @@
 # THE SOFTWARE.
 
 import os
-import tempfile
-from subprocess import Popen, PIPE
+from tempfile import TemporaryFile
+import subprocess
 import soundfile as sf
 
 
-def media2sig16kmono(medianame, tmpdir=None, start_sec=None, stop_sec=None, ffmpeg='ffmpeg', dtype='float64'):
+def media2sig16kmono(medianame, start_sec=None, stop_sec=None, ffmpeg='ffmpeg', dtype='float64'):
     """
     Convert media to temp wav 16k mono and return signal
     """
@@ -56,26 +56,24 @@ def media2sig16kmono(medianame, tmpdir=None, start_sec=None, stop_sec=None, ffmp
 
     base, _ = os.path.splitext(os.path.basename(medianame))
 
-    with tempfile.TemporaryDirectory(dir=tmpdir) as tmpdirname:
-        # build ffmpeg command line
-        tmpwav = tmpdirname + '/' + base + '.wav'
-        args = [ffmpeg, '-y', '-i', medianame, '-ar', '16000', '-ac', '1']
-        if start_sec is None:
-            start_sec = 0
-        else:
-            args += ['-ss', '%f' % start_sec]
-
-        if stop_sec is not None:
-            args += ['-to', '%f' % stop_sec]
-        args += [tmpwav]
-
-        # launch ffmpeg
-        p = Popen(args, stdout=PIPE, stderr=PIPE)
-        output, error = p.communicate()
-        assert p.returncode == 0, error
-
-        # Get Mel Power Spectrogram and Energy
-        sig, sr = sf.read(tmpwav, dtype=dtype)
-        assert sr == 16000
-        return sig
 
+    # build ffmpeg command
+    cmd = [ffmpeg, '-i', medianame, '-f', 'wav', '-acodec', 'pcm_s16le', '-ar', '16000', '-ac', '1']
+    if start_sec is None:
+        start_sec = 0
+    else:
+        cmd += ['-ss', '%f' % start_sec]
+    if stop_sec is not None:
+        cmd += ['-to', '%f' % stop_sec]
+    cmd += ['pipe:1']
+
+    with TemporaryFile() as out, TemporaryFile() as err:
+        ret = subprocess.run(cmd, stdout=out, stderr=err)
+        if ret.returncode != 0:
+            err.seek(0)
+            msg = err.read()
+            raise Exception(msg)
+        out.seek(0)
+        wav_data, fs = sf.read(out, dtype=dtype)
+    assert(fs == 16000)
+    return wav_data
diff --git a/inaSpeechSegmenter/segmenter.py b/inaSpeechSegmenter/segmenter.py
@@ -50,8 +50,8 @@
 
 from .export_funcs import seg2csv, seg2textgrid
 
-def _media2feats(medianame, tmpdir, start_sec, stop_sec, ffmpeg):
-    sig = media2sig16kmono(medianame, tmpdir, start_sec, stop_sec, ffmpeg, 'float32')
+def _media2feats(medianame, start_sec, stop_sec, ffmpeg):
+    sig = media2sig16kmono(medianame, start_sec, stop_sec, ffmpeg, 'float32')
     with warnings.catch_warnings():
         # ignore warnings resulting from empty signals parts
         warnings.filterwarnings('ignore', message='divide by zero encountered in log', category=RuntimeWarning)
@@ -276,27 +276,25 @@ def segment_feats(self, mspec, loge, difflen, start_sec):
         return [(lab, start_sec + start * .02, start_sec + stop * .02) for lab, start, stop in lseg]
 
 
-    def __call__(self, medianame, tmpdir=None, start_sec=None, stop_sec=None):
+    def __call__(self, medianame, start_sec=None, stop_sec=None):
         """
         Return segmentation of a given file
                 * convert file to wav 16k mono with ffmpeg
                 * call NN segmentation procedures
         * media_name: path to the media to be processed (including remote url)
                 may include any format supported by ffmpeg
-        * tmpdir: allow to define a custom path for storing temporary files
-                fast read/write HD are a good choice
         * start_sec (seconds): sound stream before start_sec won't be processed
         * stop_sec (seconds): sound stream after stop_sec won't be processed
         """
         
-        mspec, loge, difflen = _media2feats(medianame, tmpdir, start_sec, stop_sec, self.ffmpeg)
+        mspec, loge, difflen = _media2feats(medianame, start_sec, stop_sec, self.ffmpeg)
         if start_sec is None:
             start_sec = 0
         # do segmentation   
         return self.segment_feats(mspec, loge, difflen, start_sec)
 
     
-    def batch_process(self, linput, loutput, tmpdir=None, verbose=False, skipifexist=False, nbtry=1, trydelay=2., output_format='csv'):
+    def batch_process(self, linput, loutput, verbose=False, skipifexist=False, nbtry=1, trydelay=2., output_format='csv'):
         
         if verbose:
             print('batch_processing %d files' % len(linput))
@@ -311,7 +309,7 @@ def batch_process(self, linput, loutput, tmpdir=None, verbose=False, skipifexist
         t_batch_start = time.time()
         
         lmsg = []
-        fg = featGenerator(linput.copy(), loutput.copy(), tmpdir, self.ffmpeg, skipifexist, nbtry, trydelay)
+        fg = featGenerator(linput.copy(), loutput.copy(), self.ffmpeg, skipifexist, nbtry, trydelay)
         i = 0
         for feats, msg in fg:
             lmsg += msg
@@ -337,7 +335,7 @@ def batch_process(self, linput, loutput, tmpdir=None, verbose=False, skipifexist
         return t_batch_dur, nb_processed, avg, lmsg
 
 
-def medialist2feats(lin, lout, tmpdir, ffmpeg, skipifexist, nbtry, trydelay):
+def medialist2feats(lin, lout, ffmpeg, skipifexist, nbtry, trydelay):
     """
     To be used when processing batches
     if resulting file exists, it is skipped
@@ -362,7 +360,7 @@ def medialist2feats(lin, lout, tmpdir, ffmpeg, skipifexist, nbtry, trydelay):
         itry = 0
         while ret is None and itry < nbtry:
             try:
-                ret = _media2feats(src, tmpdir, None, None, ffmpeg)
+                ret = _media2feats(src, None, None, ffmpeg)
             except:
                 itry += 1
                 errmsg = sys.exc_info()[0]
@@ -376,14 +374,14 @@ def medialist2feats(lin, lout, tmpdir, ffmpeg, skipifexist, nbtry, trydelay):
     return ret, msg
 
     
-def featGenerator(ilist, olist, tmpdir=None, ffmpeg='ffmpeg', skipifexist=False, nbtry=1, trydelay=2.):
-    thread = ThreadReturning(target = medialist2feats, args=[ilist, olist, tmpdir, ffmpeg, skipifexist, nbtry, trydelay])
+def featGenerator(ilist, olist, ffmpeg='ffmpeg', skipifexist=False, nbtry=1, trydelay=2.):
+    thread = ThreadReturning(target = medialist2feats, args=[ilist, olist, ffmpeg, skipifexist, nbtry, trydelay])
     thread.start()
     while True:
         ret, msg = thread.join()
         if len(ilist) == 0:
             break
-        thread = ThreadReturning(target = medialist2feats, args=[ilist, olist, tmpdir, ffmpeg, skipifexist, nbtry, trydelay])
+        thread = ThreadReturning(target = medialist2feats, args=[ilist, olist, ffmpeg, skipifexist, nbtry, trydelay])
         thread.start()
         yield ret, msg
     yield ret, msg
diff --git a/inaSpeechSegmenter/vbx_segmenter.py b/inaSpeechSegmenter/vbx_segmenter.py
@@ -144,7 +144,7 @@ def apply_vad(self, xvectors, a_vad):
         # Add vectors with vad-overlap if too many predictions have been removed
         return add_needed_vectors(n_xvectors, midpoint_seg)
 
-    def __call__(self, fpath, tmpdir=None):
+    def __call__(self, fpath):
         """
         Return Voice Femininity Score of a given file with values before last sigmoid activation :
                 * convert file to wav 16k mono with ffmpeg
@@ -154,10 +154,10 @@ def __call__(self, fpath, tmpdir=None):
                 * apply gender detection model and compute femininity score
                 * return score, duration of detected speech and number of retained x-vectors
         """
-        basename, ext = os.path.splitext(os.path.basename(fpath))[0], os.path.splitext(os.path.basename(fpath))[1]
+        basename, _ = os.path.splitext(os.path.basename(fpath))[0], os.path.splitext(os.path.basename(fpath))[1]
 
         # Read "wav" file
-        signal = media2sig16kmono(fpath, tmpdir, dtype="float64")
+        signal = media2sig16kmono(fpath, dtype="float64")
         duration = len(signal) / SR
 
         # Applying voice activity detection
@@ -230,7 +230,7 @@ def __call__(self, basename, fea, duration):
                 seg_end = round(start / 100.0 + WINLEN / 100.0, 3)
                 xvectors.append((key, (seg_start, seg_end), xvector))
 
-        #  Last segment
+        #  Last segment
         if len(fea) - start - STEP >= 10:
             data = fea[start + STEP:len(fea)]
             xvector = self.get_embedding(data)
diff --git a/run_test.py b/run_test.py
@@ -55,7 +55,7 @@ def test_execution(self):
     def test_silence_features(self):
         # test empty signal do not result in warnings
         with warnings.catch_warnings(record=True) as w:
-            _media2feats('./media/silence2sec.wav', None, None, None, 'ffmpeg')
+            _media2feats('./media/silence2sec.wav', None, None, 'ffmpeg')
             assert len(w) == 0, [str(e) for e in w]
 
         
diff --git a/setup.py b/setup.py
@@ -92,6 +92,22 @@
 }
 ```
 
+inaSpeechSegmenter was ranked #1 6 open-source VAD system on a French TV and
+radio benchmark : LIUM_SpkDiarization, Pyannote, Rvad, Silero, Speechbrain
+```bibtex
+@inproceedings{doukhan-etal-2024-inagvad,
+    title = "{I}na{GVAD} : A Challenging {F}rench {TV} and Radio Corpus Annotated for Speech Activity Detection and Speaker Gender Segmentation",
+    author = "Doukhan, David  and Maertens, Christine  and Le Personnic, William  and Speroni, Ludovic  and Dehak, Reda",
+    booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
+    month = may,
+    year = "2024",
+    address = "Torino, Italia",
+    publisher = "ELRA and ICCL",
+    url = "https://aclanthology.org/2024.lrec-main.785/",
+    pages = "8963--8974",
+}
+```
+
 inaSpeechSegmenter won MIREX 2018 speech detection challenge.  
 http://www.music-ir.org/mirex/wiki/2018:Music_and_or_Speech_Detection_Results  
 Details on the speech detection submodule can be found bellow: