Use src_lang/tgt_lang for missing characters since it operates on the same examples

Enkidu93 · Enkidu93 · commit 5b28d16afd08 · 2025-06-24T13:07:49.000-04:00
diff --git a/machine/translation/huggingface/hugging_face_nmt_model_trainer.py b/machine/translation/huggingface/hugging_face_nmt_model_trainer.py
@@ -211,10 +211,10 @@ def add_tokens(tokenizer: Any, missing_tokens: List[str]) -> Any:
                 # using unofficially supported behavior to set the normalizer
                 lang_codes = []
                 tokenizer.backend_tokenizer.normalizer = norm_tok.backend_tokenizer.normalizer  # type: ignore
-                if self._add_unk_src_tokens and self._src_lang is not None:
-                    lang_codes.append(self._src_lang)
-                if self._add_unk_tgt_tokens and self._tgt_lang is not None:
-                    lang_codes.append(self._tgt_lang)
+                if self._add_unk_src_tokens:
+                    lang_codes.append(src_lang)
+                if self._add_unk_tgt_tokens:
+                    lang_codes.append(tgt_lang)
                 missing_tokens = find_missing_characters(tokenizer, train_dataset, lang_codes)
                 if missing_tokens:
                     tokenizer = add_tokens(tokenizer, missing_tokens)