Fix GPT-OSS swiglu_limit not passed in for MXFP4 (#40197)

danielhanchen · ArthurZucker · commit a03df6acd44a · 2025-08-22T11:20:23.000+02:00
Add swiglu_limit = 7.0
diff --git a/src/transformers/integrations/mxfp4.py b/src/transformers/integrations/mxfp4.py
@@ -172,7 +172,7 @@ def __init__(self, config):
             torch.zeros(self.num_experts, self.hidden_size, dtype=torch.float32), requires_grad=False
         )
         self.alpha = 1.702
-
+        self.limit = getattr(config, "swiglu_limit", 7.0)
         self.gate_up_proj_precision_config = None
         self.down_proj_precision_config = None
 
@@ -185,7 +185,7 @@ def forward(self, hidden_states: torch.Tensor, routing_data, gather_idx, scatter
         swiglu_fn = triton_kernels_hub.swiglu.swiglu_fn
 
         with torch.cuda.device(hidden_states.device):
-            act = FusedActivation(FnSpecs("swiglu", swiglu_fn, ("alpha", "limit")), (self.alpha, None), 2)
+            act = FusedActivation(FnSpecs("swiglu", swiglu_fn, ("alpha", "limit")), (self.alpha, self.limit), 2)
 
             intermediate_cache1 = matmul_ogs(
                 hidden_states,