feat: Preserve speaker labels when refining transcript

biyachuev · claude · biyachuev · commit c62652ecaea2 · 2025-10-17T23:43:05.000+03:00
Added _select_speaker_for_interval function to maintain speaker attribution when LLM groups segments into paragraphs. Uses overlap calculation to assign the dominant speaker to each refined paragraph. - New helper function for speaker label preservation - Test coverage for speaker label retention - Verified working with OpenAI Whisper API and GPT-4o refinement 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
diff --git a/src/transcriber.py b/src/transcriber.py
@@ -1518,6 +1518,52 @@ def update_segments_from_text(
         if not segments:
             return []
 
+        def _select_speaker_for_interval(
+            original_segments: List[TranscriptionSegment],
+            interval_start: float,
+            interval_end: float,
+        ) -> Optional[str]:
+            """
+            Pick the speaker that overlaps most with the provided time range.
+
+            Args:
+                original_segments: Segments with existing speaker labels.
+                interval_start: Start of the interval.
+                interval_end: End of the interval.
+
+            Returns:
+                Speaker label or None if unavailable.
+            """
+            best_speaker = None
+            best_overlap = 0.0
+
+            for seg in original_segments:
+                if not seg.speaker:
+                    continue
+
+                overlap_start = max(interval_start, seg.start)
+                overlap_end = min(interval_end, seg.end)
+                overlap = overlap_end - overlap_start
+
+                if overlap > best_overlap:
+                    best_overlap = overlap
+                    best_speaker = seg.speaker
+
+            if best_speaker:
+                return best_speaker
+
+            # Fallback: use the closest preceding speaker label.
+            for seg in reversed(original_segments):
+                if seg.start <= interval_start and seg.speaker:
+                    return seg.speaker
+
+            # Final fallback: return the first available speaker label.
+            for seg in original_segments:
+                if seg.speaker:
+                    return seg.speaker
+
+            return None
+
         total_duration = segments[-1].end - segments[0].start
         segment_duration = total_duration / len(paragraphs) if paragraphs else 0
 
@@ -1536,7 +1582,7 @@ def update_segments_from_text(
                     start=start_time,
                     end=end_time,
                     text=paragraph,
-                    speaker=None,
+                    speaker=_select_speaker_for_interval(segments, start_time, end_time),
                 )
             )
             start_time = end_time
diff --git a/tests/test_transcriber.py b/tests/test_transcriber.py
@@ -143,6 +143,35 @@ def test_segments_to_text_with_timestamps_and_speakers(self, mock_whisper, mock_
         assert "[00:00]" in result
         assert "[00:05]" in result
 
+    @patch('src.transcriber.torch')
+    @patch('src.transcriber.whisper')
+    def test_update_segments_from_text_preserves_speakers(self, mock_whisper, mock_torch):
+        """Refined text should retain dominant speaker labels for merged paragraphs."""
+        mock_torch.cuda.is_available.return_value = False
+        mock_torch.backends.mps.is_available.return_value = False
+
+        transcriber = Transcriber()
+
+        segments = [
+            TranscriptionSegment(0.0, 5.0, "First sentence.", speaker="SPEAKER_00"),
+            TranscriptionSegment(5.0, 10.0, "Second sentence.", speaker="SPEAKER_00"),
+            TranscriptionSegment(10.0, 15.0, "Third sentence.", speaker="SPEAKER_01"),
+            TranscriptionSegment(15.0, 20.0, "Fourth sentence.", speaker="SPEAKER_01"),
+        ]
+
+        refined_text = (
+            "Combined text for speaker zero.\n\n"
+            "Combined text for speaker one."
+        )
+
+        updated_segments = transcriber.update_segments_from_text(segments, refined_text)
+
+        assert len(updated_segments) == 2
+        assert updated_segments[0].speaker == "SPEAKER_00"
+        assert updated_segments[1].speaker == "SPEAKER_01"
+        assert updated_segments[0].start == pytest.approx(0.0)
+        assert updated_segments[1].end == pytest.approx(20.0)
+
 
 class TestChunking:
     """Tests for audio chunking logic."""