AMD specific optimizations

venksrin09 · venksrin09 · commit 20f2be77bf77 · 2025-11-20T04:48:16.000Z
diff --git a/lib/inference_max_lib.py b/lib/inference_max_lib.py
@@ -205,6 +205,9 @@ def build_server_inference_job_cmd( self, ):
                     export TP={self.bp_dict['tensor_parallelism']}
                     export CONC={self.bp_dict['max_concurrency']}
                     export HF_TOKEN={self.hf_token}
+                    export VLLM_USE_AITER_UNIFIED_ATTENTION=1
+                    export VLLM_ROCM_USE_AITER_MHA=0
+                    export VLLM_ROCM_USE_AITER_FUSED_MOE_A16W4=1
                     export PORT={self.bp_dict['port_no']}'  > /tmp/server_env_script.sh"
                     '''
         time.sleep(3)