Fix cache miss for InternVL

Jianhong-Zhang · Jianhong-Zhang · commit b564a833d5d0 · 2025-10-14T22:25:35.000-07:00
---------
Signed-off-by: Jianhong Zhang &lt;jianhong.zhang@intel.com&gt;
diff --git a/vllm/model_executor/models/internvl.py b/vllm/model_executor/models/internvl.py
@@ -1491,6 +1491,7 @@ def extract_feature(self, pixel_values: torch.Tensor) -> torch.Tensor:
                 end_idx = start_idx + i
                 batch_sliced_pixel_values = \
                         pixel_values[start_idx:end_idx, ...]
+                batch_sliced_pixel_values = batch_sliced_pixel_values.contiguous().clone()
                 if is_lazy:
                     vit_embeds_minibatch = \
                         self.vision_model(
diff --git a/vllm/worker/hpu_model_runner.py b/vllm/worker/hpu_model_runner.py
@@ -3960,6 +3960,13 @@ def try_revert_dummy_output_tokens():
                     with self.profiler.record_event('internal',
                                                     model_event_name,
                                                     args=profiler_args):
+                        # Clone inputs_embeds early to prevent cache miss failure
+                        if 'InternVLChatModel' in str(type(self.model.model)):
+                            if "inputs_embeds" in execute_model_kwargs:
+                                orig = execute_model_kwargs["inputs_embeds"]
+                                execute_model_kwargs["inputs_embeds"] = orig.contiguous().clone()
+                            if sampling_metadata.selected_token_indices is not None:
+                                sampling_metadata.selected_token_indices = sampling_metadata.selected_token_indices.clone()
                         hidden_states = self.model.forward(
                             **execute_model_kwargs,
                             selected_token_indices=sampling_metadata.