[None][fix] Clear indexer k cache reference before release cuda memory (#9110)

chang-l · web-flow · commit c37924f37bd1 · 2025-11-12T22:12:53.000-08:00
Signed-off-by: Chang Liu (Enterprise Products) &lt;9713593+chang-l@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/attention_backend/sparse/dsa.py b/tensorrt_llm/_torch/attention_backend/sparse/dsa.py
@@ -1528,6 +1528,11 @@ def get_indexer_k_cache_buffers(self, layer_idx: int):
         return self.indexer_k_cache_pool_per_layer[layer_offset].view(
             self.num_blocks, block_size, 1, per_token_size)
 
+    def shutdown(self):
+        # Clear Python references BEFORE C++ frees the underlying CUDA buffers
+        self.indexer_k_cache_pool_per_layer = []
+        super().shutdown()
+
     @staticmethod
     def get_cache_size_per_token(model_config: ModelConfig, mapping: Mapping,
                                  **kwargs):