address comments

PerkzZheng · PerkzZheng · commit bd34973e1cad · 2025-12-02T21:57:01.000+08:00
Signed-off-by: Perkz Zheng &lt;67892460+PerkzZheng@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/pyexecutor/resource_manager.py b/tensorrt_llm/_torch/pyexecutor/resource_manager.py
@@ -713,6 +713,9 @@ def get_cache_size_per_token(model_config: ModelConfigPython,
                 mem_per_token / 16)
         else:
             # All other cases (fp16/bf16 kv cache), we need 2 bytes per token for K and V.
+            assert quant_config is None or (
+                not quant_config.quant_mode.has_kv_cache_quant()
+            ), "Quantized kv cache is not expected"
             mem_per_token *= 2
         return mem_per_token