standard error message

IlyasMoutawwakil · IlyasMoutawwakil · commit 52515c3d8daf · 2025-11-22T14:40:24.000+01:00
diff --git a/script.py b/script.py
@@ -0,0 +1,12 @@
+import torch
+
+
+class DummyModule(torch.nn.Module):
+    def forward(self, x):
+        return x * 2
+
+
+if __name__ == "__main__":
+    model = DummyModule()
+    input_tensor = torch.tensor([-1.0, -2.0, -3.0])
+    output = model(input_tensor)
diff --git a/src/transformers/models/deepseek_vl/modeling_deepseek_vl.py b/src/transformers/models/deepseek_vl/modeling_deepseek_vl.py
@@ -178,7 +178,7 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {n_image_features}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {n_image_features}",
         )
         return special_image_mask
 
diff --git a/src/transformers/models/deepseek_vl_hybrid/modeling_deepseek_vl_hybrid.py b/src/transformers/models/deepseek_vl_hybrid/modeling_deepseek_vl_hybrid.py
@@ -295,7 +295,7 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {n_image_features}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {n_image_features}",
         )
         return special_image_mask
 
diff --git a/src/transformers/models/gemma3n/modeling_gemma3n.py b/src/transformers/models/gemma3n/modeling_gemma3n.py
@@ -2169,15 +2169,15 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0] * image_features.shape[1]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0] * image_features.shape[1]}",
         )
 
         n_audio_tokens = special_audio_mask.sum()
         special_audio_mask = special_audio_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
-        if audio_features is not None and inputs_embeds[special_audio_mask].numel() != audio_features.numel():
-            raise ValueError(
-                f"Audio features and image tokens do not match: tokens: {n_audio_tokens}, features {audio_features.shape[0] * audio_features.shape[1]}"
-            )
+        torch_check(
+            audio_features is None or inputs_embeds[special_audio_mask].numel() == audio_features.numel(),
+            lambda: f"Audio features and audio tokens do not match, tokens: {n_audio_tokens}, features: {audio_features.shape[0] * audio_features.shape[1]}",
+        )
 
         return special_image_mask, special_audio_mask
 
diff --git a/src/transformers/models/gemma3n/modular_gemma3n.py b/src/transformers/models/gemma3n/modular_gemma3n.py
@@ -2241,15 +2241,15 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0] * image_features.shape[1]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0] * image_features.shape[1]}",
         )
 
         n_audio_tokens = special_audio_mask.sum()
         special_audio_mask = special_audio_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
-        if audio_features is not None and inputs_embeds[special_audio_mask].numel() != audio_features.numel():
-            raise ValueError(
-                f"Audio features and image tokens do not match: tokens: {n_audio_tokens}, features {audio_features.shape[0] * audio_features.shape[1]}"
-            )
+        torch_check(
+            audio_features is None or inputs_embeds[special_audio_mask].numel() == audio_features.numel(),
+            lambda: f"Audio features and audio tokens do not match, tokens: {n_audio_tokens}, features: {audio_features.shape[0] * audio_features.shape[1]}",
+        )
 
         return special_image_mask, special_audio_mask
 
diff --git a/src/transformers/models/glm46v/modeling_glm46v.py b/src/transformers/models/glm46v/modeling_glm46v.py
@@ -359,14 +359,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.shape[0]}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.shape[0]}",
         )
         return special_image_mask, special_video_mask
 
diff --git a/src/transformers/models/glm4v/modeling_glm4v.py b/src/transformers/models/glm4v/modeling_glm4v.py
@@ -1207,14 +1207,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.shape[0]}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.shape[0]}",
         )
         return special_image_mask, special_video_mask
 
diff --git a/src/transformers/models/glm4v/modular_glm4v.py b/src/transformers/models/glm4v/modular_glm4v.py
@@ -1205,14 +1205,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.shape[0]}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.shape[0]}",
         )
         return special_image_mask, special_video_mask
 
diff --git a/src/transformers/models/glm4v_moe/modeling_glm4v_moe.py b/src/transformers/models/glm4v_moe/modeling_glm4v_moe.py
@@ -1374,14 +1374,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.shape[0]}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.shape[0]}",
         )
         return special_image_mask, special_video_mask
 
diff --git a/src/transformers/models/janus/modeling_janus.py b/src/transformers/models/janus/modeling_janus.py
@@ -1114,7 +1114,7 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {n_image_features}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {n_image_features}",
         )
         return special_image_mask
 
diff --git a/src/transformers/models/janus/modular_janus.py b/src/transformers/models/janus/modular_janus.py
@@ -924,7 +924,7 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {n_image_features}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {n_image_features}",
         )
         return special_image_mask
 
diff --git a/src/transformers/models/llama4/modeling_llama4.py b/src/transformers/models/llama4/modeling_llama4.py
@@ -1242,7 +1242,7 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
         return special_image_mask
 
diff --git a/src/transformers/models/llava_next/modeling_llava_next.py b/src/transformers/models/llava_next/modeling_llava_next.py
@@ -441,7 +441,7 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
         return special_image_mask
 
diff --git a/src/transformers/models/llava_next_video/modeling_llava_next_video.py b/src/transformers/models/llava_next_video/modeling_llava_next_video.py
@@ -500,14 +500,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.shape[0]}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.shape[0]}",
         )
         return special_image_mask, special_video_mask
 
diff --git a/src/transformers/models/llava_next_video/modular_llava_next_video.py b/src/transformers/models/llava_next_video/modular_llava_next_video.py
@@ -424,14 +424,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.shape[0]}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.shape[0]}",
         )
         return special_image_mask, special_video_mask
 
diff --git a/src/transformers/models/llava_onevision/modeling_llava_onevision.py b/src/transformers/models/llava_onevision/modeling_llava_onevision.py
@@ -471,14 +471,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.shape[0]}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.shape[0]}",
         )
         return special_image_mask, special_video_mask
 
diff --git a/src/transformers/models/perception_lm/modeling_perception_lm.py b/src/transformers/models/perception_lm/modeling_perception_lm.py
@@ -229,14 +229,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.size()[:-1].numel()}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.size()[:-1].numel()}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.size()[:-1].numel()}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.size()[:-1].numel()}",
         )
         return special_image_mask, special_video_mask
 
diff --git a/src/transformers/models/perception_lm/modular_perception_lm.py b/src/transformers/models/perception_lm/modular_perception_lm.py
@@ -190,14 +190,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.size()[:-1].numel()}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.size()[:-1].numel()}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.size()[:-1].numel()}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.size()[:-1].numel()}",
         )
         return special_image_mask, special_video_mask
 
diff --git a/src/transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py b/src/transformers/models/qwen2_5_omni/modeling_qwen2_5_omni.py
@@ -1814,14 +1814,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.shape[0]}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.shape[0]}",
         )
         special_audio_mask = special_audio_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         return special_image_mask, special_video_mask, special_audio_mask
diff --git a/src/transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py b/src/transformers/models/qwen2_5_omni/modular_qwen2_5_omni.py
@@ -2173,14 +2173,14 @@ def get_placeholder_mask(
         special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             image_features is None or inputs_embeds[special_image_mask].numel() == image_features.numel(),
-            lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {image_features.shape[0]}",
+            lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {image_features.shape[0]}",
         )
 
         n_video_tokens = special_video_mask.sum()
         special_video_mask = special_video_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         torch_check(
             video_features is None or inputs_embeds[special_video_mask].numel() == video_features.numel(),
-            lambda: f"Video features and video tokens do not match: tokens: {n_video_tokens}, features {video_features.shape[0]}",
+            lambda: f"Video features and video tokens do not match, tokens: {n_video_tokens}, features: {video_features.shape[0]}",
         )
         special_audio_mask = special_audio_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)
         return special_image_mask, special_video_mask, special_audio_mask
diff --git a/src/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py b/src/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py
diff --git a/src/transformers/models/qwen2_audio/modeling_qwen2_audio.py b/src/transformers/models/qwen2_audio/modeling_qwen2_audio.py
diff --git a/src/transformers/models/qwen2_vl/modeling_qwen2_vl.py b/src/transformers/models/qwen2_vl/modeling_qwen2_vl.py
diff --git a/src/transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py b/src/transformers/models/qwen3_omni_moe/modeling_qwen3_omni_moe.py
diff --git a/src/transformers/models/qwen3_vl/modeling_qwen3_vl.py b/src/transformers/models/qwen3_vl/modeling_qwen3_vl.py
diff --git a/src/transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py b/src/transformers/models/qwen3_vl_moe/modeling_qwen3_vl_moe.py
diff --git a/src/transformers/models/video_llama_3/modeling_video_llama_3.py b/src/transformers/models/video_llama_3/modeling_video_llama_3.py
diff --git a/src/transformers/models/video_llava/modeling_video_llava.py b/src/transformers/models/video_llava/modeling_video_llava.py

Original file line number	Diff line number	Diff line change
`@@ -178,7 +178,7 @@ def get_placeholder_mask(`
`178`	`178`	`special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)`
`179`	`179`	`torch_check(`
`180`	`180`	`inputs_embeds[special_image_mask].numel() == image_features.numel(),`
`181`		`- lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {n_image_features}",`
	`181`	`+ lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {n_image_features}",`
`182`	`182`	`)`
`183`	`183`	`return special_image_mask`
`184`	`184`
Original file line number	Diff line number	Diff line change
`@@ -295,7 +295,7 @@ def get_placeholder_mask(`
`295`	`295`	`special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)`
`296`	`296`	`torch_check(`
`297`	`297`	`inputs_embeds[special_image_mask].numel() == image_features.numel(),`
`298`		`- lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {n_image_features}",`
	`298`	`+ lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {n_image_features}",`
`299`	`299`	`)`
`300`	`300`	`return special_image_mask`
`301`	`301`
Original file line number	Diff line number	Diff line change
`@@ -1114,7 +1114,7 @@ def get_placeholder_mask(`
`1114`	`1114`	`special_image_mask = special_image_mask.unsqueeze(-1).expand_as(inputs_embeds).to(inputs_embeds.device)`
`1115`	`1115`	`torch_check(`
`1116`	`1116`	`inputs_embeds[special_image_mask].numel() == image_features.numel(),`
`1117`		`- lambda: f"Image features and image tokens do not match: tokens: {n_image_tokens}, features {n_image_features}",`
	`1117`	`+ lambda: f"Image features and image tokens do not match, tokens: {n_image_tokens}, features: {n_image_features}",`
`1118`	`1118`	`)`
`1119`	`1119`	`return special_image_mask`
`1120`	`1120`