AGI 0825 cherry-pick NVIDIA#6508 NVIDIA#6519 NVIDIA#7087 NVIDIA#7114 NVIDIA#6282 NVIDIA#6279

jhaotingc · EmmaQiaoCh · chzblych · web-flow · commit 4a015e307cd2 · 2025-08-25T22:54:06.000-07:00
* [None][infra] Pin the version for triton to 3.3.1 (NVIDIA#6508) Signed-off-by: qqiao <qqiao@nvidia.com> * [None][infra] Pin the version for triton to 3.3.1 (NVIDIA#6508) (NVIDIA#6519) (NVIDIA#6549) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com> * [fix]: use safeInitRowMax instead of fp32_lowest to avoid NaN (NVIDIA#7087) Signed-off-by: Yao Yao <lowsfer@users.noreply.github.com> * [None][fix] Fix a numerical stability issue for XQA with spec dec Signed-off-by: Yao Yao <lowsfer@users.noreply.github.com> * fix typo Signed-off-by: Jhao-Ting Chen <jhaotingc@nvidia.com> * fix precompiled multi_query_token kernel not having is_fp8_out hash key (NVIDIA#6279) Signed-off-by: Jhao-Ting Chen <jhaotingc@nvidia.com> * [fix] Fix missing fields in xqa kernel cache key (NVIDIA#6282) Signed-off-by: Yao Yao <lowsfer@users.noreply.github.com> --------- Signed-off-by: qqiao <qqiao@nvidia.com> Signed-off-by: Yanchao Lu <yanchaol@nvidia.com> Signed-off-by: Yao Yao <lowsfer@users.noreply.github.com> Signed-off-by: Jhao-Ting Chen <jhaotingc@nvidia.com> Co-authored-by: Emma Qiao <qqiao@nvidia.com> Co-authored-by: Yanchao Lu <yanchaol@nvidia.com> Co-authored-by: Yao Yao <lowsfer@users.noreply.github.com>
diff --git a/cpp/kernels/xqa/mha_sm90.cu b/cpp/kernels/xqa/mha_sm90.cu
@@ -630,6 +630,8 @@ CUBIN_EXPORT __global__
 #ifdef NDEBUG
 #if !OPTIMIZE_FOR_LATENCY
     __launch_bounds__(128 * 3, headElems* ctaNbQHeads <= 128 * 16 ? 3 : 2)
+#else
+    __launch_bounds__(128 * 3)
 #endif
 #else
     __launch_bounds__(128 * 3, 1)
@@ -999,7 +1001,7 @@ CUBIN_EXPORT __global__
         if (threadIdx.x < smem.gemm1AccColMax.size)
         {
             auto const idx = threadIdx.x;
-            smem.gemm1AccColMax[idx] = mha::numeric_limits<float>::lowest();
+            smem.gemm1AccColMax[idx] = safeInitRowMax;
             smem.gemm1AccColSum[idx] = 0;
         }
         smem.gemm1WarpGrpBar.arrive_and_wait();
@@ -1075,6 +1077,23 @@ CUBIN_EXPORT __global__
                 }
             }
             smem.gemm1WarpGrpBar.arrive_and_wait();
+#else
+            if (blockIdx.y == 1 && threadIdx.x == 0)
+            {
+                printf("rowMax:\n");
+                for (int i = 0; i < ctaNbQHeads; i++)
+                {
+                    printf("%f, ", smem.xRowMax[idxXBuf][i]);
+                }
+                printf("\n");
+                printf("rowSum:\n");
+                for (int i = 0; i < ctaNbQHeads; i++)
+                {
+                    printf("%f, ", smem.xRowSum[idxXBuf][i]);
+                }
+                printf("\n");
+            }
+            smem.gemm1WarpGrpBar.arrive_and_wait();
 #endif
 #endif
 
@@ -1887,15 +1906,15 @@ __device__ inline void warpGrpApplyMask(Gemm0Acc& acc, SpecDec const& specDec,
                     uint32_t const globalRow = tileStartRow + row;
                     if (globalRow >= cacheSeqLen)
                     {
-                        acc(m, n)(i, j) = mha::numeric_limits<float>::lowest();
+                        acc(m, n)(i, j) = safeInitRowMax;
                         continue;
                     }
                     if (globalRow >= maskStartRow)
                     {
                         uint32_t const maskRow = globalRow - maskStartRow;
                         if ((bit_mask >> maskRow) == 0)
                         {
-                            acc(m, n)(i, j) = mha::numeric_limits<float>::lowest();
+                            acc(m, n)(i, j) = safeInitRowMax;
                         }
                     }
                 }
@@ -2009,7 +2028,7 @@ __device__ inline void warpGrpApplyMask(uint32_t warpRank, Gemm0Acc& acc, uint32
 #pragma unroll
                 for (uint32_t j = 0; j < GmmaAccCoreMat::cols; j++)
                 {
-                    acc(m, n)(i, j) = mha::numeric_limits<float>::lowest();
+                    acc(m, n)(i, j) = safeInitRowMax;
                 }
             }
         }
@@ -2302,9 +2321,9 @@ __device__ inline void warpGrpApplyMask(Gemm0Acc& acc, SpecDec const& specDec,
                 {
                     uint32_t const col = GmmaAccCoreMat::cols * (4 * n + idxInQuad) + j;
                     assert((col < nbValidCols) == bool(endMask & (1ULL << col)));
-                    if (((mask >> col) & 1) == 0)
+                    if ((mask & (1ULL << col)) == 0)
                     {
-                        acc(m, n)(i, j) = mha::numeric_limits<float>::lowest();
+                        acc(m, n)(i, j) = safeInitRowMax;
                     }
                 }
             }
@@ -2332,7 +2351,7 @@ __device__ inline void warpGrpApplyMask(Gemm0Acc& acc, uint32_t validColBeg, uin
 #pragma unroll
                 for (uint32_t i = 0; i < GmmaAccCoreMat::rows; i++)
                 {
-                    acc(m, n)(i, j) = mha::numeric_limits<float>::lowest();
+                    acc(m, n)(i, j) = safeInitRowMax;
                 }
             }
         }
diff --git a/cpp/kernels/xqa/utils.cuh b/cpp/kernels/xqa/utils.cuh
@@ -30,7 +30,13 @@
 #include <cuda_fp8.h>
 
 inline constexpr float log2e = 1.4426950408889634; // std::log2(M_E)
-inline constexpr float safeInitRowMax = -1e+30F;
+// we used an optimization where exp(x-rowMax) is computed as:
+/*  bias = rowMax * log2e  // shared for the whole row
+    exp(x-rowMax) = exp2f(x * log2e - bias)
+*/
+// But this optimization is not numerically stable when (x * log2e - bias) is computed with FMA and x is too large. For
+// this reason, don't set safeInitRowMax with a huge absolute value.
+inline constexpr float safeInitRowMax = -1e+5F;
 inline constexpr int32_t kBAD_PAGE_INDEX = -1;
 __constant__ constexpr float kE4M3_MAX = 448.F;
 
diff --git a/cpp/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/decoderXQAImplCommon.cpp b/cpp/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/decoderXQAImplCommon.cpp
@@ -52,9 +52,11 @@ XQAKernelRuntimeHashKey getRuntimeHashKeyFromXQAParams(XQAParams const& xqaParam
     unsigned int kernel_m_tilesize
         = getKernelMTileSize(num_q_heads_over_kv, xqaParams.multi_query_tokens, qSeqLen, isXqaJit);
 
+    // precompiled XQA does not use is_fp8_output as hashing key
     return {xqaParams.kv_cache_data_type, head_size, beam_width, kernel_num_q_heads_over_kv, kernel_m_tilesize,
         xqaParams.paged_kv_cache ? static_cast<unsigned int>(xqaParams.tokens_per_block) : 0, xqaParams.paged_kv_cache,
-        xqaParams.multi_query_tokens, xqaParams.is_fp8_output};
+        xqaParams.multi_query_tokens, isXqaJit ? xqaParams.is_fp8_output : false,
+        isXqaJit ? std::optional(xqaParams.position_embedding_type) : std::nullopt};
 }
 
 } // namespace tensorrt_llm::kernels
diff --git a/cpp/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/decoderXQAImplCommon.h b/cpp/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/decoderXQAImplCommon.h
@@ -67,14 +67,15 @@ struct XQAKernelRuntimeHashKey
     bool paged_kv_cache;
     bool multi_query_tokens;
     bool is_fp8_output;
+    std::optional<PositionEmbeddingType> position_embedding_type;
 
     bool operator==(XQAKernelRuntimeHashKey const& other) const
     {
         return kv_data_type == other.kv_data_type && head_size == other.head_size
             && num_q_heads_per_kv == other.num_q_heads_per_kv && beam_size == other.beam_size
             && multi_query_tokens == other.multi_query_tokens && m_tilesize == other.m_tilesize
             && tokens_per_page == other.tokens_per_page && paged_kv_cache == other.paged_kv_cache
-            && is_fp8_output == other.is_fp8_output;
+            && is_fp8_output == other.is_fp8_output && position_embedding_type == other.position_embedding_type;
     }
 };
 
@@ -103,6 +104,8 @@ struct XQAKernelRuntimeHasher
         key ^= s.multi_query_tokens;
         key <<= 1;  // 51
         key ^= s.is_fp8_output;
+        key <<= 8;
+        key ^= static_cast<int8_t>(s.position_embedding_type.value_or(static_cast<PositionEmbeddingType>(-1)));
         return key;
     }
 };
diff --git a/cpp/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/decoderXQAImplJIT/decoderXQAImplJIT.cpp b/cpp/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/decoderXQAImplJIT/decoderXQAImplJIT.cpp
@@ -37,8 +37,8 @@ using ::tensorrt_llm::kernels::XQAKernelMetaInfo;
 XQAKernelRuntimeHashKey getRuntimeHashKeyFromKernelMeta(XQAKernelMetaInfo const& kernelMeta)
 {
     return {kernelMeta.mKVDataType, kernelMeta.mHeadDim, kernelMeta.mBeamWidth, kernelMeta.mNumQHeadsOverKV,
-        kernelMeta.mMTileSize, kernelMeta.mTokensPerPage, kernelMeta.mPagedKVCache, kernelMeta.mMultiQueryTokens,
-        0 /* xqa jit param is_fp8_output */};
+        kernelMeta.mMTileSize, kernelMeta.mTokensPerPage, kernelMeta.mPagedKVCache, kernelMeta.mMultiQueryTokens, false,
+        std::nullopt};
 }
 
 } // anonymous namespace
diff --git a/cpp/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/decoderXQAImplPrecompiled.cpp b/cpp/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/decoderXQAImplPrecompiled.cpp
@@ -97,7 +97,7 @@ class XQAKernelList
             }
             XQAKernelRuntimeHashKey hash_key{kernelMeta.mKVDataType, kernelMeta.mHeadDim, kernelMeta.mBeamWidth,
                 kernelMeta.mNumQHeadsOverKV, kernelMeta.mMTileSize, kernelMeta.mTokensPerPage, kernelMeta.mPagedKVCache,
-                kernelMeta.mMultiQueryTokens, 0 /* xqa jit param is_fp8_output */};
+                kernelMeta.mMultiQueryTokens, false, std::nullopt};
 
             mFunctions.insert(std::make_pair(hash_key, funcInfo));
         }
@@ -124,10 +124,12 @@ class XQAKernelList
             m_tilesize = num_q_heads_over_kv;
         }
 
+        // precompiled XQA does not support param is_fp8_output in hash key
         XQAKernelRuntimeHashKey hash_key
             = {xqaParams.kv_cache_data_type, head_size, beam_width, kernel_num_q_heads_over_kv, m_tilesize,
                 xqaParams.paged_kv_cache ? static_cast<unsigned int>(xqaParams.tokens_per_block) : 0,
-                xqaParams.paged_kv_cache, xqaParams.multi_query_tokens, xqaParams.is_fp8_output};
+                xqaParams.paged_kv_cache, xqaParams.multi_query_tokens, 0, /* xqa jit param is_fp8_output */
+                std::nullopt};
         auto const findIter = mFunctions.find(hash_key);
         return findIter != mFunctions.end();
     }
diff --git a/requirements.txt b/requirements.txt
@@ -59,3 +59,4 @@ ninja
 etcd3
 blake3
 llguidance==0.7.29
+triton==3.3.1; platform_machine == "x86_64"

Original file line number	Diff line number	Diff line change
`@@ -630,6 +630,8 @@ CUBIN_EXPORT __global__`
`630`	`630`	`#ifdef NDEBUG`
`631`	`631`	`#if !OPTIMIZE_FOR_LATENCY`
`632`	`632`	`__launch_bounds__(128 * 3, headElems* ctaNbQHeads <= 128 * 16 ? 3 : 2)`
	`633`	`+#else`
	`634`	`+ __launch_bounds__(128 * 3)`
`633`	`635`	`#endif`
`634`	`636`	`#else`
`635`	`637`	`__launch_bounds__(128 * 3, 1)`
`@@ -999,7 +1001,7 @@ CUBIN_EXPORT __global__`
`999`	`1001`	`if (threadIdx.x < smem.gemm1AccColMax.size)`
`1000`	`1002`	`{`
`1001`	`1003`	`auto const idx = threadIdx.x;`
`1002`		`- smem.gemm1AccColMax[idx] = mha::numeric_limits<float>::lowest();`
	`1004`	`+ smem.gemm1AccColMax[idx] = safeInitRowMax;`
`1003`	`1005`	`smem.gemm1AccColSum[idx] = 0;`
`1004`	`1006`	`}`
`1005`	`1007`	`smem.gemm1WarpGrpBar.arrive_and_wait();`
`@@ -1075,6 +1077,23 @@ CUBIN_EXPORT __global__`
`1075`	`1077`	`}`
`1076`	`1078`	`}`
`1077`	`1079`	`smem.gemm1WarpGrpBar.arrive_and_wait();`
	`1080`	`+#else`
	`1081`	`+ if (blockIdx.y == 1 && threadIdx.x == 0)`
	`1082`	`+ {`
	`1083`	`+ printf("rowMax:\n");`
	`1084`	`+ for (int i = 0; i < ctaNbQHeads; i++)`
	`1085`	`+ {`
	`1086`	`+ printf("%f, ", smem.xRowMax[idxXBuf][i]);`
	`1087`	`+ }`
	`1088`	`+ printf("\n");`
	`1089`	`+ printf("rowSum:\n");`
	`1090`	`+ for (int i = 0; i < ctaNbQHeads; i++)`
	`1091`	`+ {`
	`1092`	`+ printf("%f, ", smem.xRowSum[idxXBuf][i]);`
	`1093`	`+ }`
	`1094`	`+ printf("\n");`
	`1095`	`+ }`
	`1096`	`+ smem.gemm1WarpGrpBar.arrive_and_wait();`
`1078`	`1097`	`#endif`
`1079`	`1098`	`#endif`
`1080`	`1099`
`@@ -1887,15 +1906,15 @@ __device__ inline void warpGrpApplyMask(Gemm0Acc& acc, SpecDec const& specDec,`
`1887`	`1906`	`uint32_t const globalRow = tileStartRow + row;`
`1888`	`1907`	`if (globalRow >= cacheSeqLen)`
`1889`	`1908`	`{`
`1890`		`- acc(m, n)(i, j) = mha::numeric_limits<float>::lowest();`
	`1909`	`+ acc(m, n)(i, j) = safeInitRowMax;`
`1891`	`1910`	`continue;`
`1892`	`1911`	`}`
`1893`	`1912`	`if (globalRow >= maskStartRow)`
`1894`	`1913`	`{`
`1895`	`1914`	`uint32_t const maskRow = globalRow - maskStartRow;`
`1896`	`1915`	`if ((bit_mask >> maskRow) == 0)`
`1897`	`1916`	`{`
`1898`		`- acc(m, n)(i, j) = mha::numeric_limits<float>::lowest();`
	`1917`	`+ acc(m, n)(i, j) = safeInitRowMax;`
`1899`	`1918`	`}`
`1900`	`1919`	`}`
`1901`	`1920`	`}`
`@@ -2009,7 +2028,7 @@ __device__ inline void warpGrpApplyMask(uint32_t warpRank, Gemm0Acc& acc, uint32`
`2009`	`2028`	`#pragma unroll`
`2010`	`2029`	`for (uint32_t j = 0; j < GmmaAccCoreMat::cols; j++)`
`2011`	`2030`	`{`
`2012`		`- acc(m, n)(i, j) = mha::numeric_limits<float>::lowest();`
	`2031`	`+ acc(m, n)(i, j) = safeInitRowMax;`
`2013`	`2032`	`}`
`2014`	`2033`	`}`
`2015`	`2034`	`}`
`@@ -2302,9 +2321,9 @@ __device__ inline void warpGrpApplyMask(Gemm0Acc& acc, SpecDec const& specDec,`
`2302`	`2321`	`{`
`2303`	`2322`	`uint32_t const col = GmmaAccCoreMat::cols * (4 * n + idxInQuad) + j;`
`2304`	`2323`	`assert((col < nbValidCols) == bool(endMask & (1ULL << col)));`
`2305`		`- if (((mask >> col) & 1) == 0)`
	`2324`	`+ if ((mask & (1ULL << col)) == 0)`
`2306`	`2325`	`{`
`2307`		`- acc(m, n)(i, j) = mha::numeric_limits<float>::lowest();`
	`2326`	`+ acc(m, n)(i, j) = safeInitRowMax;`
`2308`	`2327`	`}`
`2309`	`2328`	`}`
`2310`	`2329`	`}`
`@@ -2332,7 +2351,7 @@ __device__ inline void warpGrpApplyMask(Gemm0Acc& acc, uint32_t validColBeg, uin`
`2332`	`2351`	`#pragma unroll`
`2333`	`2352`	`for (uint32_t i = 0; i < GmmaAccCoreMat::rows; i++)`
`2334`	`2353`	`{`
`2335`		`- acc(m, n)(i, j) = mha::numeric_limits<float>::lowest();`
	`2354`	`+ acc(m, n)(i, j) = safeInitRowMax;`
`2336`	`2355`	`}`
`2337`	`2356`	`}`
`2338`	`2357`	`}`
Original file line number	Diff line number	Diff line change
`@@ -37,8 +37,8 @@ using ::tensorrt_llm::kernels::XQAKernelMetaInfo;`
`37`	`37`	`XQAKernelRuntimeHashKey getRuntimeHashKeyFromKernelMeta(XQAKernelMetaInfo const& kernelMeta)`
`38`	`38`	`{`
`39`	`39`	`return {kernelMeta.mKVDataType, kernelMeta.mHeadDim, kernelMeta.mBeamWidth, kernelMeta.mNumQHeadsOverKV,`
`40`		`- kernelMeta.mMTileSize, kernelMeta.mTokensPerPage, kernelMeta.mPagedKVCache, kernelMeta.mMultiQueryTokens,`
`41`		`- 0 /* xqa jit param is_fp8_output */};`
	`40`	`+ kernelMeta.mMTileSize, kernelMeta.mTokensPerPage, kernelMeta.mPagedKVCache, kernelMeta.mMultiQueryTokens, false,`
	`41`	`+ std::nullopt};`
`42`	`42`	`}`
`43`	`43`
`44`	`44`	`} // anonymous namespace`
Original file line number	Diff line number	Diff line change
`@@ -97,7 +97,7 @@ class XQAKernelList`
`97`	`97`	`}`
`98`	`98`	`XQAKernelRuntimeHashKey hash_key{kernelMeta.mKVDataType, kernelMeta.mHeadDim, kernelMeta.mBeamWidth,`
`99`	`99`	`kernelMeta.mNumQHeadsOverKV, kernelMeta.mMTileSize, kernelMeta.mTokensPerPage, kernelMeta.mPagedKVCache,`
`100`		`- kernelMeta.mMultiQueryTokens, 0 /* xqa jit param is_fp8_output */};`
	`100`	`+ kernelMeta.mMultiQueryTokens, false, std::nullopt};`
`101`	`101`
`102`	`102`	`mFunctions.insert(std::make_pair(hash_key, funcInfo));`
`103`	`103`	`}`
`@@ -124,10 +124,12 @@ class XQAKernelList`
`124`	`124`	`m_tilesize = num_q_heads_over_kv;`
`125`	`125`	`}`
`126`	`126`
	`127`	`+ // precompiled XQA does not support param is_fp8_output in hash key`
`127`	`128`	`XQAKernelRuntimeHashKey hash_key`
`128`	`129`	`= {xqaParams.kv_cache_data_type, head_size, beam_width, kernel_num_q_heads_over_kv, m_tilesize,`
`129`	`130`	`xqaParams.paged_kv_cache ? static_cast<unsigned int>(xqaParams.tokens_per_block) : 0,`
`130`		`- xqaParams.paged_kv_cache, xqaParams.multi_query_tokens, xqaParams.is_fp8_output};`
	`131`	`+ xqaParams.paged_kv_cache, xqaParams.multi_query_tokens, 0, /* xqa jit param is_fp8_output */`
	`132`	`+ std::nullopt};`
`131`	`133`	`auto const findIter = mFunctions.find(hash_key);`
`132`	`134`	`return findIter != mFunctions.end();`
`133`	`135`	`}`