Fix Break change of AWQ FusedModules due to Attention Refactor (#41909)

fanqiNO1 · web-flow · commit 75e39856f877 · 2025-11-20T14:41:33.000+01:00
* fix awq bc due to attention refactor

* feat: support more rope_types for awq fusion

* feat: add test for llama3

* fix ruff format

* propagate changes in modeling_llama
diff --git a/src/transformers/integrations/awq.py b/src/transformers/integrations/awq.py
@@ -18,6 +18,7 @@
 from packaging import version
 
 from ..activations import ACT2FN
+from ..modeling_rope_utils import ROPE_INIT_FUNCTIONS
 from ..modeling_utils import PreTrainedModel
 from ..utils import is_auto_awq_available, is_ipex_available, is_torch_available, logging
 from ..utils.quantization_config import (
@@ -46,7 +47,6 @@
         "mlp": ["w1", "w3", "w2"],
         "layernorm": ["input_layernorm", "post_attention_layernorm", "norm"],
         "use_alibi": False,
-        "rope_theta": 1000000.0,
     },
     "llama": {
         "attention": ["q_proj", "k_proj", "v_proj", "o_proj"],
@@ -60,6 +60,18 @@
         "layernorm": ["input_layernorm", "post_attention_layernorm", "norm"],
         "use_alibi": False,
     },
+    "qwen2": {
+        "attention": ["q_proj", "k_proj", "v_proj", "o_proj"],
+        "mlp": ["gate_proj", "up_proj", "down_proj"],
+        "layernorm": ["input_layernorm", "post_attention_layernorm", "norm"],
+        "use_alibi": False,
+    },
+    "qwen3": {
+        "attention": ["q_proj", "k_proj", "v_proj", "o_proj", "q_norm", "k_norm"],
+        "mlp": ["gate_proj", "up_proj", "down_proj"],
+        "layernorm": ["input_layernorm", "post_attention_layernorm", "norm"],
+        "use_alibi": False,
+    },
 }
 
 AWQ_SCALES_MAPPINGS = {
@@ -74,6 +86,53 @@
 }
 
 
+if is_auto_awq_available():
+    from awq.modules.fused.attn import RoPE
+
+    class AWQRoPE(RoPE):
+        """
+        AWQRoPE module for hacking rope implementation in AWQ fused attention modules to support more models.
+
+        Args:
+            rope_type (`str`):
+                The rope type to use.
+            head_dim (`int`):
+                The head dimension.
+            max_seq_len (`int`):
+                The maximum sequence length.
+            config (`PreTrainedConfig`):
+                The model config object.
+            device (`torch.device`):
+                The device to put the module on.
+        """
+
+        def __init__(self, rope_type, head_dim, max_seq_len, config, device):
+            rope_init_fn = ROPE_INIT_FUNCTIONS[rope_type]
+            self.inv_freq, self.attention_scaling = rope_init_fn(config, device)
+            # Use fake rope_theta to initialize the parent class
+            super().__init__(head_dim=head_dim, max_seq_len=max_seq_len, device=device, rope_theta=-1)
+
+        def precompute_freqs_cis(self, dim: int, end: int, theta=-1):
+            t = torch.arange(end, device=self.inv_freq.device)
+            freqs = torch.outer(t, self.inv_freq).float()
+            freqs_cis = torch.polar(torch.ones_like(freqs), freqs)
+            del self.inv_freq  # free the memory
+            return freqs_cis
+
+        def forward(
+            self,
+            xq: torch.Tensor,
+            xk: torch.Tensor,
+            start_pos: int,
+            seqlen: int,
+            partial: bool = False,
+        ):
+            xq_out, xk_out = super().forward(xq, xk, start_pos, seqlen, partial)
+            xq_out = (xq_out * self.attention_scaling).type_as(xq)
+            xk_out = (xk_out * self.attention_scaling).type_as(xk)
+            return xq_out, xk_out
+
+
 def replace_quantization_scales(model, model_type):
     from awq.modules.act import ScaledActivation
 
@@ -219,15 +278,17 @@ def get_modules_to_fuse(model, quantization_config):
         # Properly deal with the case where we have a multi-modal model as well (e.g. Llava)
         config = model.config.get_text_config(decoder=True)
 
-        # Handle hidden_size, num_attention_heads, num_key_value_heads on our own.
+        # Handle hidden_size, num_attention_heads, num_key_value_heads, rope_parameters on our own.
         hidden_size = config.hidden_size
         num_attention_heads = config.num_attention_heads
         num_key_value_heads = getattr(config, "num_key_value_heads", num_attention_heads)
+        rope_parameters = config.rope_parameters
 
         # Fill `current_fused_mapping` with the expected values
         current_fused_mapping["hidden_size"] = hidden_size
         current_fused_mapping["num_attention_heads"] = num_attention_heads
         current_fused_mapping["num_key_value_heads"] = num_key_value_heads
+        current_fused_mapping["rope_parameters"] = rope_parameters
         current_fused_mapping["max_seq_len"] = quantization_config.fuse_max_seq_len
     else:
         raise ValueError(
@@ -261,6 +322,15 @@ def fuse_awq_modules(model, quantization_config):
         from awq.modules.fused.attn import QuantAttentionFused
         from awq.modules.fused.mlp import QuantFusedMLP
         from awq.modules.fused.norm import FasterTransformerRMSNorm
+
+        # Hack QuantAttentionFused to modify the return value of forward function to avoid returning past_key_value
+        old_quant_attention_fused_forward = QuantAttentionFused.forward
+
+        def new_quant_attention_fused_forward(self, *args, **kwargs):
+            attn_output, attention_weight, _ = old_quant_attention_fused_forward(self, *args, **kwargs)
+            return attn_output, attention_weight
+
+        QuantAttentionFused.forward = new_quant_attention_fused_forward
     else:
         raise ValueError("Fusing is only supported for the AutoAWQ backend")
 
@@ -376,7 +446,7 @@ def _fuse_awq_attention_layers(model, module, modules_to_fuse, current_module_na
             The pytorch parent module that has layernorm modules to fuse
         modules_to_fuse (`list[str]`):
             The module fusing mapping. The dictionary has to contain a field `attention` with attention module names
-            in the correct order: q, k, v, o layer
+            in the correct order: q, k, v, o layer, (q_norm, k_norm) optional
         current_module_name (`str`):
             The current submodule name
         target_cls (`~autoawq.QuantAttentionFused`):
@@ -415,6 +485,14 @@ def _fuse_awq_attention_layers(model, module, modules_to_fuse, current_module_na
         v_proj = getattr(module, modules_to_fuse["attention"][2])
         o_proj = getattr(module, modules_to_fuse["attention"][3])
 
+        # maybe there are q_norm and k_norm layers
+        if len(modules_to_fuse["attention"]) > 4:
+            q_norm = getattr(module, modules_to_fuse["attention"][4])
+            k_norm = getattr(module, modules_to_fuse["attention"][5])
+        else:
+            q_norm = None
+            k_norm = None
+
         bias = torch.cat([q_proj.bias, k_proj.bias, v_proj.bias], dim=0) if q_proj.bias is not None else None
 
         qkv_layer = linear_target_cls(
@@ -445,16 +523,30 @@ def _fuse_awq_attention_layers(model, module, modules_to_fuse, current_module_na
             modules_to_fuse["max_seq_len"],
             use_alibi=modules_to_fuse["use_alibi"],
             # The default value in autoawq is set to 10000.0
-            rope_theta=modules_to_fuse.get("rope_theta", 10000.0),
+            rope_theta=modules_to_fuse["rope_parameters"].get("rope_theta", 10000.0),
+            q_norm=q_norm,
+            k_norm=k_norm,
         )
 
+        # Hack the rope module if not using alibi and rope_type is not default
+        # As the default rope implementation in autoawq only supports the "default" rope type
+        rope_type = modules_to_fuse["rope_parameters"].get("rope_type", "default")
+        if not modules_to_fuse["use_alibi"] and rope_type != "default":
+            fused_attention_layer.rope = AWQRoPE(
+                rope_type,
+                modules_to_fuse["hidden_size"] // modules_to_fuse["num_attention_heads"],
+                modules_to_fuse["max_seq_len"],
+                model.config.get_text_config(decoder=True),
+                previous_device,
+            )
+
         fused_attention_layer.is_hf_transformers = True
 
         parent_name, child_name = current_module_name.rsplit(".", 1)
         parent = model.get_submodule(parent_name)
         setattr(parent, child_name, fused_attention_layer.to(previous_device))
 
-        del q_proj, k_proj, v_proj, o_proj
+        del q_proj, k_proj, v_proj, o_proj, q_norm, k_norm
         module_has_been_fused = True
 
     return module_has_been_fused
diff --git a/src/transformers/models/apertus/modeling_apertus.py b/src/transformers/models/apertus/modeling_apertus.py
@@ -416,6 +416,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/arcee/modeling_arcee.py b/src/transformers/models/arcee/modeling_arcee.py
@@ -421,6 +421,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/aria/modeling_aria.py b/src/transformers/models/aria/modeling_aria.py
@@ -750,6 +750,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/bitnet/modeling_bitnet.py b/src/transformers/models/bitnet/modeling_bitnet.py
@@ -420,6 +420,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/cohere/modeling_cohere.py b/src/transformers/models/cohere/modeling_cohere.py
@@ -453,6 +453,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/csm/modeling_csm.py b/src/transformers/models/csm/modeling_csm.py
@@ -754,6 +754,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/deepseek_v2/modeling_deepseek_v2.py b/src/transformers/models/deepseek_v2/modeling_deepseek_v2.py
@@ -537,6 +537,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/deepseek_v3/modeling_deepseek_v3.py b/src/transformers/models/deepseek_v3/modeling_deepseek_v3.py
@@ -626,6 +626,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/diffllama/modeling_diffllama.py b/src/transformers/models/diffllama/modeling_diffllama.py
@@ -676,6 +676,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/emu3/modeling_emu3.py b/src/transformers/models/emu3/modeling_emu3.py
@@ -1247,6 +1247,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/ernie4_5/modeling_ernie4_5.py b/src/transformers/models/ernie4_5/modeling_ernie4_5.py
@@ -419,6 +419,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/glm/modeling_glm.py b/src/transformers/models/glm/modeling_glm.py
@@ -437,6 +437,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/glm4/modeling_glm4.py b/src/transformers/models/glm4/modeling_glm4.py
@@ -441,6 +441,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/glm4_moe/modeling_glm4_moe.py b/src/transformers/models/glm4_moe/modeling_glm4_moe.py
@@ -570,6 +570,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/helium/modeling_helium.py b/src/transformers/models/helium/modeling_helium.py
@@ -420,6 +420,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py b/src/transformers/models/hunyuan_v1_dense/modeling_hunyuan_v1_dense.py
@@ -434,6 +434,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py b/src/transformers/models/hunyuan_v1_moe/modeling_hunyuan_v1_moe.py
@@ -522,6 +522,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/llama/modeling_llama.py b/src/transformers/models/llama/modeling_llama.py
@@ -425,6 +425,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/olmo/modeling_olmo.py b/src/transformers/models/olmo/modeling_olmo.py
@@ -423,6 +423,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/olmo2/modeling_olmo2.py b/src/transformers/models/olmo2/modeling_olmo2.py
@@ -428,6 +428,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/src/transformers/models/seed_oss/modeling_seed_oss.py b/src/transformers/models/seed_oss/modeling_seed_oss.py
@@ -426,6 +426,7 @@ def forward(
                 position_embeddings=position_embeddings,
                 position_ids=position_ids,
                 past_key_values=past_key_values,
+                use_cache=use_cache,
                 cache_position=cache_position,
                 **kwargs,
             )
diff --git a/tests/quantization/autoawq/test_awq.py b/tests/quantization/autoawq/test_awq.py

Original file line number	Diff line number	Diff line change
`@@ -416,6 +416,7 @@ def forward(`
`416`	`416`	`position_embeddings=position_embeddings,`
`417`	`417`	`position_ids=position_ids,`
`418`	`418`	`past_key_values=past_key_values,`
	`419`	`+ use_cache=use_cache,`
`419`	`420`	`cache_position=cache_position,`
`420`	`421`	`**kwargs,`
`421`	`422`	`)`
Original file line number	Diff line number	Diff line change
`@@ -421,6 +421,7 @@ def forward(`
`421`	`421`	`position_embeddings=position_embeddings,`
`422`	`422`	`position_ids=position_ids,`
`423`	`423`	`past_key_values=past_key_values,`
	`424`	`+ use_cache=use_cache,`
`424`	`425`	`cache_position=cache_position,`
`425`	`426`	`**kwargs,`
`426`	`427`	`)`
Original file line number	Diff line number	Diff line change
`@@ -750,6 +750,7 @@ def forward(`
`750`	`750`	`position_embeddings=position_embeddings,`
`751`	`751`	`position_ids=position_ids,`
`752`	`752`	`past_key_values=past_key_values,`
	`753`	`+ use_cache=use_cache,`
`753`	`754`	`cache_position=cache_position,`
`754`	`755`	`**kwargs,`
`755`	`756`	`)`
Original file line number	Diff line number	Diff line change
`@@ -420,6 +420,7 @@ def forward(`
`420`	`420`	`position_embeddings=position_embeddings,`
`421`	`421`	`position_ids=position_ids,`
`422`	`422`	`past_key_values=past_key_values,`
	`423`	`+ use_cache=use_cache,`
`423`	`424`	`cache_position=cache_position,`
`424`	`425`	`**kwargs,`
`425`	`426`	`)`
Original file line number	Diff line number	Diff line change
`@@ -453,6 +453,7 @@ def forward(`
`453`	`453`	`position_embeddings=position_embeddings,`
`454`	`454`	`position_ids=position_ids,`
`455`	`455`	`past_key_values=past_key_values,`
	`456`	`+ use_cache=use_cache,`
`456`	`457`	`cache_position=cache_position,`
`457`	`458`	`**kwargs,`
`458`	`459`	`)`
Original file line number	Diff line number	Diff line change
`@@ -754,6 +754,7 @@ def forward(`
`754`	`754`	`position_embeddings=position_embeddings,`
`755`	`755`	`position_ids=position_ids,`
`756`	`756`	`past_key_values=past_key_values,`
	`757`	`+ use_cache=use_cache,`
`757`	`758`	`cache_position=cache_position,`
`758`	`759`	`**kwargs,`
`759`	`760`	`)`
Original file line number	Diff line number	Diff line change
`@@ -537,6 +537,7 @@ def forward(`
`537`	`537`	`position_embeddings=position_embeddings,`
`538`	`538`	`position_ids=position_ids,`
`539`	`539`	`past_key_values=past_key_values,`
	`540`	`+ use_cache=use_cache,`
`540`	`541`	`cache_position=cache_position,`
`541`	`542`	`**kwargs,`
`542`	`543`	`)`
Original file line number	Diff line number	Diff line change
`@@ -626,6 +626,7 @@ def forward(`
`626`	`626`	`position_embeddings=position_embeddings,`
`627`	`627`	`position_ids=position_ids,`
`628`	`628`	`past_key_values=past_key_values,`
	`629`	`+ use_cache=use_cache,`
`629`	`630`	`cache_position=cache_position,`
`630`	`631`	`**kwargs,`
`631`	`632`	`)`
Original file line number	Diff line number	Diff line change
`@@ -676,6 +676,7 @@ def forward(`
`676`	`676`	`position_embeddings=position_embeddings,`
`677`	`677`	`position_ids=position_ids,`
`678`	`678`	`past_key_values=past_key_values,`
	`679`	`+ use_cache=use_cache,`
`679`	`680`	`cache_position=cache_position,`
`680`	`681`	`**kwargs,`
`681`	`682`	`)`