Dao-AILab · GD06 · Oct 29, 2025 · Oct 29, 2025
diff --git a/hopper/flash_bwd_launch_template.h b/hopper/flash_bwd_launch_template.h
@@ -94,7 +94,7 @@ void run_flash_bwd(Flash_bwd_params &params, cudaStream_t stream) {
         flash::CollectiveEpilogueBwdGQA<TileShape_MNK, ElementAccum, ArchTag, CollectiveMainloop::NumMmaThreads, Varlen, Deterministic>
     >;
     using Scheduler = std::conditional_t<
-        Is_causal,
+        Is_causal || Is_local,
         flash::SingleTileBwdLPTScheduler<Varlen, kBlockN, Is_causal && Deterministic /*SPT*/>,
         flash::SingleTileScheduler<Varlen, false /*Split*/, false /*PackGQA*/, kBlockN>
     >;

diff --git a/hopper/mainloop_bwd_sm90_tma_gmma_ws.hpp b/hopper/mainloop_bwd_sm90_tma_gmma_ws.hpp
@@ -607,8 +607,7 @@ struct CollectiveMainloopBwdSm90 {
             seqlen_info, n_block, bidb, params.window_size_left,
             params.window_size_right, 0 /*sink_token_length*/);
         // It's possible to have m_block_max <= m_block_min. Exit early
-        // Though if local and deterministic, still need to increment dq semaphore
-        if constexpr ((Is_causal || Is_local || Varlen) && !(Is_local && Deterministic)) {
+        if constexpr (Is_causal || Is_local || Varlen) {
             if (m_block_max <= m_block_min) { return; }
         }
 
@@ -637,7 +636,11 @@ struct CollectiveMainloopBwdSm90 {
                     int n_block_max_for_m_block = std::min(n_block_global_max, cute::ceil_div((m_block + 1) * kBlockM + seqlen_info.seqlen_k - seqlen_info.seqlen_q, kBlockN));
                     Barrier::wait_eq(lock_ptr, threadIdx.x % cutlass::NumThreadsPerWarp, m_block * num_batch * num_head, n_block_max_for_m_block - 1 - n_block);
                 } else {
-                    Barrier::wait_eq(lock_ptr, threadIdx.x % cutlass::NumThreadsPerWarp, m_block * num_batch * num_head, n_block);
+                    int n_block_min = 0;
+                    if constexpr(Is_local) {
+                        n_block_min = std::max(n_block_min, (m_block * kBlockM + seqlen_info.seqlen_k - seqlen_info.seqlen_q - params.window_size_left) / kBlockN);
+                    }
+                    Barrier::wait_eq(lock_ptr, threadIdx.x % cutlass::NumThreadsPerWarp, m_block * num_batch * num_head, n_block - n_block_min);
                 }
             }
             #pragma unroll
@@ -657,13 +660,6 @@ struct CollectiveMainloopBwdSm90 {
                 Barrier::arrive_inc(lock_ptr, threadIdx.x % cutlass::NumThreadsPerWarp, m_block * num_batch * num_head);
             }
         }
-        if constexpr (Is_local && Deterministic) {
-            int const m_block_global_max = cute::ceil_div(seqlen_info.seqlen_q, kBlockM);
-            #pragma unroll 2
-            for (; m_block < m_block_global_max; ++m_block) {
-                Barrier::arrive_inc(lock_ptr, threadIdx.x % cutlass::NumThreadsPerWarp, m_block * num_batch * num_head);
-            }
-        }
     }
 
     CUTLASS_DEVICE void