ModelTC
diff --git a/‎lightllm/common/fused_moe/grouped_fused_moe.py‎
Lines changed: 197 additions & 89 deletions b/‎lightllm/common/fused_moe/grouped_fused_moe.py‎
Lines changed: 197 additions & 89 deletions
diff --git a/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=256,N=7168,expert_num=256,mul_routed_weight=true,out_dtype=torch.bfloat16,topk_num=1,use_fp8_w8a8=true}_NVIDIA_H200.json‎
Lines changed: 15 additions & 24 deletions b/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=256,N=7168,expert_num=256,mul_routed_weight=true,out_dtype=torch.bfloat16,topk_num=1,use_fp8_w8a8=true}_NVIDIA_H200.json‎
Lines changed: 15 additions & 24 deletions
diff --git a/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=256,N=7168,expert_num=257,mul_routed_weight=true,out_dtype=torch.bfloat16,topk_num=1,use_fp8_w8a8=true}_NVIDIA_H200.json‎
Lines changed: 12 additions & 21 deletions b/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=256,N=7168,expert_num=257,mul_routed_weight=true,out_dtype=torch.bfloat16,topk_num=1,use_fp8_w8a8=true}_NVIDIA_H200.json‎
Lines changed: 12 additions & 21 deletions
diff --git a/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=7168,N=512,expert_num=256,mul_routed_weight=false,out_dtype=torch.bfloat16,topk_num=8,use_fp8_w8a8=true}_NVIDIA_H200.json‎
Lines changed: 22 additions & 31 deletions b/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=7168,N=512,expert_num=256,mul_routed_weight=false,out_dtype=torch.bfloat16,topk_num=8,use_fp8_w8a8=true}_NVIDIA_H200.json‎
Lines changed: 22 additions & 31 deletions
diff --git a/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=7168,N=512,expert_num=257,mul_routed_weight=false,out_dtype=torch.bfloat16,topk_num=9,use_fp8_w8a8=true}_NVIDIA_H200.json‎
Lines changed: 28 additions & 37 deletions b/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=7168,N=512,expert_num=257,mul_routed_weight=false,out_dtype=torch.bfloat16,topk_num=9,use_fp8_w8a8=true}_NVIDIA_H200.json‎
Lines changed: 28 additions & 37 deletions
@@ -3,7 +3,7 @@
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 64,
+    "GROUP_SIZE_M": 32,
     "NEED_TRANS": true,
     "num_stages": 2,
     "num_warps": 4
@@ -17,15 +17,6 @@
     "num_stages": 2,
     "num_warps": 4
   },
-  "131072": {
-    "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 64,
-    "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 16,
-    "NEED_TRANS": false,
-    "num_stages": 3,
-    "num_warps": 4
-  },
   "16384": {
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 64,
@@ -36,12 +27,12 @@
     "num_warps": 4
   },
   "2048": {
-    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_K": 64,
     "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 64,
+    "GROUP_SIZE_M": 32,
     "NEED_TRANS": true,
-    "num_stages": 2,
+    "num_stages": 3,
     "num_warps": 4
   },
   "256": {
@@ -53,15 +44,6 @@
     "num_stages": 2,
     "num_warps": 4
   },
-  "32": {
-    "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 16,
-    "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 64,
-    "NEED_TRANS": true,
-    "num_stages": 2,
-    "num_warps": 4
-  },
   "32768": {
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 64,
@@ -89,13 +71,22 @@
     "num_stages": 2,
     "num_warps": 4
   },
+  "67584": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 16,
+    "NEED_TRANS": false,
+    "num_stages": 3,
+    "num_warps": 4
+  },
   "8": {
     "BLOCK_SIZE_K": 64,
     "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 64,
+    "GROUP_SIZE_M": 32,
     "NEED_TRANS": true,
-    "num_stages": 3,
+    "num_stages": 2,
     "num_warps": 4
   },
   "800": {
 
@@ -17,20 +17,11 @@
     "num_stages": 2,
     "num_warps": 4
   },
-  "147456": {
-    "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 64,
-    "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 16,
-    "NEED_TRANS": false,
-    "num_stages": 3,
-    "num_warps": 4
-  },
   "18432": {
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 64,
     "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 32,
+    "GROUP_SIZE_M": 64,
     "NEED_TRANS": false,
     "num_stages": 3,
     "num_warps": 4
@@ -53,15 +44,6 @@
     "num_stages": 2,
     "num_warps": 4
   },
-  "36": {
-    "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 16,
-    "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 64,
-    "NEED_TRANS": true,
-    "num_stages": 2,
-    "num_warps": 4
-  },
   "36864": {
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 64,
@@ -89,13 +71,22 @@
     "num_stages": 2,
     "num_warps": 4
   },
+  "76032": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 16,
+    "NEED_TRANS": false,
+    "num_stages": 3,
+    "num_warps": 4
+  },
   "9": {
     "BLOCK_SIZE_K": 64,
     "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 128,
     "GROUP_SIZE_M": 64,
     "NEED_TRANS": true,
-    "num_stages": 3,
+    "num_stages": 2,
     "num_warps": 4
   },
   "900": {
@@ -111,7 +102,7 @@
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 64,
     "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 64,
+    "GROUP_SIZE_M": 32,
     "NEED_TRANS": false,
     "num_stages": 3,
     "num_warps": 4
 
@@ -12,16 +12,16 @@
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 64,
-    "GROUP_SIZE_M": 16,
+    "GROUP_SIZE_M": 1,
     "NEED_TRANS": true,
-    "num_stages": 4,
+    "num_stages": 5,
     "num_warps": 4
   },
   "1024": {
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 64,
     "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 16,
+    "GROUP_SIZE_M": 1,
     "NEED_TRANS": false,
     "num_stages": 4,
     "num_warps": 4
@@ -30,34 +30,25 @@
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 64,
+    "GROUP_SIZE_M": 16,
     "NEED_TRANS": true,
     "num_stages": 5,
     "num_warps": 4
   },
   "16": {
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 16,
-    "BLOCK_SIZE_N": 128,
+    "BLOCK_SIZE_N": 64,
     "GROUP_SIZE_M": 32,
     "NEED_TRANS": true,
-    "num_stages": 4,
-    "num_warps": 4
-  },
-  "16384": {
-    "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 64,
-    "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 16,
-    "NEED_TRANS": false,
-    "num_stages": 4,
+    "num_stages": 3,
     "num_warps": 4
   },
   "2048": {
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 64,
     "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 1,
+    "GROUP_SIZE_M": 16,
     "NEED_TRANS": false,
     "num_stages": 4,
     "num_warps": 4
@@ -66,27 +57,18 @@
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 64,
+    "GROUP_SIZE_M": 16,
     "NEED_TRANS": true,
     "num_stages": 3,
     "num_warps": 4
   },
   "32": {
     "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_M": 32,
     "BLOCK_SIZE_N": 64,
-    "GROUP_SIZE_M": 32,
-    "NEED_TRANS": true,
-    "num_stages": 4,
-    "num_warps": 4
-  },
-  "4": {
-    "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 16,
-    "BLOCK_SIZE_N": 64,
-    "GROUP_SIZE_M": 16,
+    "GROUP_SIZE_M": 1,
     "NEED_TRANS": true,
-    "num_stages": 5,
+    "num_stages": 3,
     "num_warps": 4
   },
   "4096": {
@@ -102,9 +84,9 @@
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 64,
-    "GROUP_SIZE_M": 32,
+    "GROUP_SIZE_M": 64,
     "NEED_TRANS": true,
-    "num_stages": 4,
+    "num_stages": 3,
     "num_warps": 4
   },
   "8": {
@@ -113,6 +95,15 @@
     "BLOCK_SIZE_N": 64,
     "GROUP_SIZE_M": 32,
     "NEED_TRANS": true,
+    "num_stages": 5,
+    "num_warps": 4
+  },
+  "8448": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 16,
+    "NEED_TRANS": false,
     "num_stages": 4,
     "num_warps": 4
   }
 
@@ -5,7 +5,7 @@
     "BLOCK_SIZE_N": 64,
     "GROUP_SIZE_M": 1,
     "NEED_TRANS": true,
-    "num_stages": 4,
+    "num_stages": 5,
     "num_warps": 4
   },
   "100": {
@@ -18,39 +18,30 @@
     "num_warps": 4
   },
   "1024": {
-    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_K": 64,
     "BLOCK_SIZE_M": 64,
-    "BLOCK_SIZE_N": 64,
-    "GROUP_SIZE_M": 1,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 16,
     "NEED_TRANS": false,
-    "num_stages": 4,
+    "num_stages": 5,
     "num_warps": 4
   },
   "128": {
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 16,
-    "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "GROUP_SIZE_M": 1,
     "NEED_TRANS": true,
-    "num_stages": 3,
+    "num_stages": 5,
     "num_warps": 4
   },
   "16": {
     "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 32,
-    "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 16,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "GROUP_SIZE_M": 1,
     "NEED_TRANS": true,
-    "num_stages": 3,
-    "num_warps": 4
-  },
-  "16384": {
-    "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 64,
-    "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 16,
-    "NEED_TRANS": false,
-    "num_stages": 4,
+    "num_stages": 5,
     "num_warps": 4
   },
   "2048": {
@@ -64,29 +55,20 @@
   },
   "256": {
     "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 128,
-    "GROUP_SIZE_M": 16,
+    "GROUP_SIZE_M": 1,
     "NEED_TRANS": true,
     "num_stages": 4,
     "num_warps": 4
   },
   "32": {
     "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_M": 32,
     "BLOCK_SIZE_N": 64,
     "GROUP_SIZE_M": 16,
     "NEED_TRANS": true,
-    "num_stages": 4,
-    "num_warps": 4
-  },
-  "4": {
-    "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 16,
-    "BLOCK_SIZE_N": 64,
-    "GROUP_SIZE_M": 32,
-    "NEED_TRANS": true,
-    "num_stages": 5,
+    "num_stages": 3,
     "num_warps": 4
   },
   "4096": {
@@ -102,17 +84,26 @@
     "BLOCK_SIZE_K": 128,
     "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 64,
-    "GROUP_SIZE_M": 1,
+    "GROUP_SIZE_M": 16,
     "NEED_TRANS": true,
     "num_stages": 3,
     "num_warps": 4
   },
   "8": {
     "BLOCK_SIZE_K": 128,
-    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_M": 16,
     "BLOCK_SIZE_N": 64,
-    "GROUP_SIZE_M": 1,
+    "GROUP_SIZE_M": 16,
     "NEED_TRANS": true,
+    "num_stages": 3,
+    "num_warps": 4
+  },
+  "8448": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 16,
+    "NEED_TRANS": false,
     "num_stages": 4,
     "num_warps": 4
   }