diff --git a/.github/workflows/intel_test.yml b/.github/workflows/intel_test.yml index 4cc0fe4249..7e87c37f3c 100644 --- a/.github/workflows/intel_test.yml +++ b/.github/workflows/intel_test.yml @@ -95,7 +95,8 @@ jobs: cmake -G Ninja \ -DCUTLASS_ENABLE_SYCL=ON \ -DDPCPP_SYCL_TARGET=${{ matrix.sycl_target }} \ - -DCUTLASS_SYCL_RUNNING_CI=ON + -DCUTLASS_SYCL_RUNNING_CI=ON \ + -DCUTLASS_ENABLE_BENCHMARKS=OFF cmake --build . - name: Unit test shell: bash @@ -108,4 +109,9 @@ jobs: - name: Benchmarks shell: bash run: | - cmake --build . --target cutlass_benchmarks + cmake -G Ninja \ + -DCUTLASS_ENABLE_SYCL=ON \ + -DDPCPP_SYCL_TARGET=${{ matrix.sycl_target }} \ + -DCUTLASS_SYCL_RUNNING_CI=ON \ + -DCUTLASS_ENABLE_BENCHMARKS=ON + cmake --build . --target cutlass_benchmarks -j 1 diff --git a/applications/flash_attention_v2/collective/xe_flash_attn_prefill_epilogue.hpp b/applications/flash_attention_v2/collective/xe_flash_attn_prefill_epilogue.hpp index a6a3a0e6f1..cdd8a8230c 100644 --- a/applications/flash_attention_v2/collective/xe_flash_attn_prefill_epilogue.hpp +++ b/applications/flash_attention_v2/collective/xe_flash_attn_prefill_epilogue.hpp @@ -196,18 +196,16 @@ class FlashPrefillEpilogue(out_reg); - // iff ElementOutput == ElementAccumulator, then convert_type doesn't do the right conversion - // iff ElementOutput == fp8, there is no NumericConverter specialization available - // for both the above cases, we call copy() which internally performs a static_cast op on the data. - // for ElementOutput == bf16 | fp16, convert_type calls relevant NumericConverter specialization. - if constexpr (cute::is_any_of_v || cute::is_same_v) { - copy(out_reg, final_out_reg); + // iff ElementOutput == ElementAccumulator, call copy directly. + // for ElementOutput == bf16 | fp16, convert_type calls relevant NumericConverter specialization. + // iff ElementOutput == fp8, there is no NumericConverter specialization available so convert_type + // performs static_cast under the hood. + if constexpr (cute::is_same_v) { + copy(params.xe_store_o, out_reg, tOgO); } else { - Tensor temp = convert_type(out_reg); - copy(temp, final_out_reg); + Tensor final_out_reg = convert_type(out_reg); + copy(params.xe_store_o, final_out_reg, tOgO); } - copy(params.xe_store_o, final_out_reg, tOgO); } // SequenceLengthShapeType = Shape diff --git a/benchmarks/device/pvc/input_files/input_flash_attention_prefill.in b/benchmarks/device/pvc/input_files/input_flash_attention_prefill.in deleted file mode 100644 index be514bc64f..0000000000 --- a/benchmarks/device/pvc/input_files/input_flash_attention_prefill.in +++ /dev/null @@ -1,168 +0,0 @@ -# FMHA Prefill BFloat16 benchmarks -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h96_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 -PvcFMHAPrefillBF16BF16FP32_RCR_h96_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 - -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h96_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=96--num_heads_kv=96 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h96_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=96--num_heads_kv=96 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 - -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 - -PvcFMHAPrefillBF16BF16FP32_RCR_h192_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 -PvcFMHAPrefillBF16BF16FP32_RCR_h192_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 - -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillBF16BF16FP32_RCR_h96_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 -PvcFMHAPrefillBF16BF16FP32_RCR_h96_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 - -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h96_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=96--num_heads_kv=96 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h96_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=96--num_heads_kv=96 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 - -PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 -PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 - - - -PvcFMHAPrefillBF16BF16FP32_RCR_h192_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 -PvcFMHAPrefillBF16BF16FP32_RCR_h192_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 - -######################################################################################################################################################################################## - -# FMHA Prefill FP16 benchmarks - -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h96_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 -PvcFMHAPrefillFP16FP16FP32_RCR_h96_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 - -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h96_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=96--num_heads_kv=96 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h96_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=96--num_heads_kv=96 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 - -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 - -PvcFMHAPrefillFP16FP16FP32_RCR_h192_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 -PvcFMHAPrefillFP16FP16FP32_RCR_h192_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 - -PvcFMHAPrefillFP16FP16FP32_RCR_h192_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h192_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 -PvcFMHAPrefillFP16FP16FP32_RCR_h96_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 -PvcFMHAPrefillFP16FP16FP32_RCR_h96_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 - -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 - -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h96_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=96--num_heads_kv=96 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h96_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=96--num_heads_kv=96 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 -PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 - -PvcFMHAPrefillFP16FP16FP32_RCR_h192_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 -PvcFMHAPrefillFP16FP16FP32_RCR_h192_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 diff --git a/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h128.in b/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h128.in new file mode 100644 index 0000000000..4313af2f41 --- /dev/null +++ b/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h128.in @@ -0,0 +1,72 @@ +# FMHA Prefill BFloat16 benchmarks +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 + +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 +FMHAPrefillBF16BF16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 + +######################################################################################################################################################################################## + +# FMHA Prefill FP16 benchmarks + +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 + +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=2048 --batch=1 --num_heads_q=32, --num_heads_kv=8 --head_size_vo=128 --head_size_qk=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=16 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 +FMHAPrefillFP16FP16FP32FP32_RCR_h128_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=16 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=128 --head_size_vo=128 diff --git a/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h192.in b/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h192.in new file mode 100644 index 0000000000..b8ecbbb88e --- /dev/null +++ b/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h192.in @@ -0,0 +1,16 @@ +# FMHA Prefill BFloat16 benchmarks +FMHAPrefillBF16BF16FP32FP32_RCR_h192_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 +FMHAPrefillBF16BF16FP32FP32_RCR_h192_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 + +FMHAPrefillBF16BF16FP32FP32_RCR_h192_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 +FMHAPrefillBF16BF16FP32FP32_RCR_h192_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 + +######################################################################################################################################################################################## + +# FMHA Prefill FP16 benchmarks + +FMHAPrefillFP16FP16FP32FP32_RCR_h192_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 +FMHAPrefillFP16FP16FP32FP32_RCR_h192_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 + +FMHAPrefillFP16FP16FP32FP32_RCR_h192_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 +FMHAPrefillFP16FP16FP32FP32_RCR_h192_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=128 --num_heads_kv=128 --head_size_vo=192 --head_size_qk=192 diff --git a/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h64.in b/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h64.in new file mode 100644 index 0000000000..5e0b4a6583 --- /dev/null +++ b/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h64.in @@ -0,0 +1,64 @@ +# FMHA Prefill BFloat16 benchmarks +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 + +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 + +######################################################################################################################################################################################## + +# FMHA Prefill FP16 benchmarks + +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 + +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=512 --seq_len_kv=512 --batch=32 --num_heads_q=32 --num_heads_kv=32 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=48 --num_heads_kv=48 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=16 --num_heads_kv=16 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=2048 --seq_len_kv=2048 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=4 --num_heads_kv=4 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=8192 --seq_len_kv=8192 --batch=32 --num_heads_q=2 --num_heads_kv=2 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=16384 --seq_len_kv=16384 --batch=32 --num_heads_q=1 --num_heads_kv=1 --head_size_qk=64 --head_size_vo=64 diff --git a/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h96.in b/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h96.in new file mode 100644 index 0000000000..e4f3b0fbd5 --- /dev/null +++ b/benchmarks/device/pvc/input_files/input_flash_attention_prefill_h96.in @@ -0,0 +1,16 @@ +# FMHA Prefill BFloat16 benchmarks +FMHAPrefillBF16BF16FP32FP32_RCR_h96_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 +FMHAPrefillBF16BF16FP32FP32_RCR_h96_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 + +FMHAPrefillBF16BF16FP32FP32_RCR_h96_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 +FMHAPrefillBF16BF16FP32FP32_RCR_h96_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 + +######################################################################################################################################################################################## + +# FMHA Prefill FP16 benchmarks + +FMHAPrefillFP16FP16FP32FP32_RCR_h96_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 +FMHAPrefillFP16FP16FP32FP32_RCR_h96_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 + +FMHAPrefillFP16FP16FP32FP32_RCR_h96_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 +FMHAPrefillFP16FP16FP32FP32_RCR_h96_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=32 --num_heads_kv=32 --head_size_vo=96 --head_size_qk=96 diff --git a/benchmarks/device/pvc/input_files/input_flash_prefill.in b/benchmarks/device/pvc/input_files/input_flash_prefill.in index 8bfeba308e..d4e7c78831 100644 --- a/benchmarks/device/pvc/input_files/input_flash_prefill.in +++ b/benchmarks/device/pvc/input_files/input_flash_prefill.in @@ -1,449 +1,449 @@ # Benchmarks with --seq_len_kv=77 are disabled as they are not supported by 2d block loads -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 -#PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_Causal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillBF16BF16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=bf16_bf16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_Causal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_FixedLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=1 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=2 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=4 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=8 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=16 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=32 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=4096 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=4096 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=40 --head_size_vo=40 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=1024 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=1024 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=80 --head_size_vo=80 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=256 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=256 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=64 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 +#FMHAPrefillFP16FP16FP32FP32_RCR_h64_NonCausal_VarLen --bm_name=fp16_fp16_fp32 --seq_len_qo=64 --seq_len_kv=77 --batch=64 --num_heads_q=8 --num_heads_kv=8 --head_size_qk=160 --head_size_vo=160 diff --git a/benchmarks/flash_attention/flash_attention_prefill/CMakeLists.txt b/benchmarks/flash_attention/flash_attention_prefill/CMakeLists.txt index 2c1ffeb33c..aef71feab5 100644 --- a/benchmarks/flash_attention/flash_attention_prefill/CMakeLists.txt +++ b/benchmarks/flash_attention/flash_attention_prefill/CMakeLists.txt @@ -28,18 +28,19 @@ set(CUTLASS_APPLICATIONS_DIR ${CMAKE_SOURCE_DIR}/applications) -# Pass these configuration files for the CI -set(CONFIG_FILE_PVC --config_file=${CMAKE_SOURCE_DIR}/benchmarks/device/pvc/input_files/input_flash_attention_prefill.in) -set(CONFIG_FILE_BMG --config_file=${CMAKE_SOURCE_DIR}/benchmarks/device/bmg/input_files/input_sglang_flash_attention_prefill_extend_nokvcache.in) - cutlass_benchmark_add_suite(cutlass_benchmarks_flash_attention_prefill SUPERSUITE cutlass_benchmarks_flash_attention) -cutlass_benchmark_add_executable( - cutlass_benchmarks_flash_attention_prefill_xe +foreach(HEAD_DIM 64 96 128 192) + set(input_name "cutlass_benchmarks_flash_attention_prefill_h${HEAD_DIM}") + set(out_exe "${input_name}_xe") + set(SHAPE_H "Shape_h${HEAD_DIM}") + cutlass_benchmark_add_executable( + ${out_exe} main.cpp - TEST_COMMAND_OPTIONS - CONFIG_FILE_PVC - CONFIG_FILE_BMG SUITE cutlass_benchmarks_flash_attention_prefill -) + ) + target_compile_definitions(${out_exe} PRIVATE + HEAD_DIM=${HEAD_DIM} + SHAPE_H=${SHAPE_H}) +endforeach() diff --git a/benchmarks/flash_attention/flash_attention_prefill/benchmark_runner.hpp b/benchmarks/flash_attention/flash_attention_prefill/benchmark_runner.hpp index fff93e4187..3343383033 100644 --- a/benchmarks/flash_attention/flash_attention_prefill/benchmark_runner.hpp +++ b/benchmarks/flash_attention/flash_attention_prefill/benchmark_runner.hpp @@ -56,7 +56,7 @@ using namespace cute; namespace cutlass::benchmark { // Command line options parsing -struct FMHAOptions { +struct FMHAPrefillOptions { bool error; @@ -64,7 +64,7 @@ struct FMHAOptions { float softmax_scale; std::string bm_name; - FMHAOptions() + FMHAPrefillOptions() : error(false), batch(32), num_heads_q(16), num_heads_kv(16), seq_len_qo(512), head_size_qk(128), seq_len_kv(512), head_size_vo(128), iterations(100), softmax_scale(1.f), bm_name("Flash Attention v2") {} @@ -72,12 +72,12 @@ struct FMHAOptions { void parse(int argc, char const **args) { cutlass::CommandLine cmd(argc, args); + head_size_vo = HEAD_DIM; cmd.get_cmd_line_argument("batch", batch, 32); cmd.get_cmd_line_argument("num_heads_q", num_heads_q, 16); cmd.get_cmd_line_argument("num_heads_kv", num_heads_kv, num_heads_q); cmd.get_cmd_line_argument("seq_len_qo", seq_len_qo, 512); cmd.get_cmd_line_argument("seq_len_kv", seq_len_kv, seq_len_qo); - cmd.get_cmd_line_argument("head_size_vo", head_size_vo, 128); cmd.get_cmd_line_argument("head_size_qk", head_size_qk, head_size_vo); cmd.get_cmd_line_argument("iterations", iterations, 100); cmd.get_cmd_line_argument("bm_name", bm_name, std::string("Flash Attention v2")); @@ -393,7 +393,7 @@ template struct BenchmarkRunnerFMHA { } /// Initialize operands to be used in the GEMM and reference GEMM - ProblemShapeType initialize(const FMHAOptions &options) { + ProblemShapeType initialize(const FMHAPrefillOptions &options) { auto problem_shape_in = cute::make_tuple(options.batch, options.num_heads_q, options.num_heads_kv, options.seq_len_qo, options.seq_len_kv, options.head_size_qk, options.head_size_vo); @@ -496,7 +496,7 @@ template struct BenchmarkRunnerFMHA { EventManager::getInstance().addEvent(event); } - void run(::benchmark::State& state, const FMHAOptions &options, const cutlass::KernelHardwareInfo &hw_info) { + void run(::benchmark::State& state, const FMHAPrefillOptions &options, const cutlass::KernelHardwareInfo &hw_info) { ProblemShapeType problem_size = initialize(options); @@ -632,14 +632,3 @@ template struct BenchmarkRunnerFMHA { }; } - -#define CUTLASS_FMHA_PREFILL_BENCHMARK(F) cutlass::benchmark::BenchmarkRegistry::Register(#F, &F##_func) - -#define CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(F) \ - static void F##_func( \ - ::benchmark::State& state, \ - cutlass::benchmark::FMHAOptions const& options, \ - cutlass::KernelHardwareInfo const& hw_info) { \ - auto bench = cutlass::benchmark::BenchmarkRunnerFMHA(); \ - bench.run(state, options, hw_info); \ - } diff --git a/benchmarks/flash_attention/flash_attention_prefill/benchmarks.hpp b/benchmarks/flash_attention/flash_attention_prefill/benchmarks.hpp index 8be7e8bf72..8e01565726 100644 --- a/benchmarks/flash_attention/flash_attention_prefill/benchmarks.hpp +++ b/benchmarks/flash_attention/flash_attention_prefill/benchmarks.hpp @@ -34,6 +34,8 @@ #include "benchmark_runner.hpp" #include "fmha_prefill_configuration.hpp" +using namespace cutlass; +using namespace cutlass::flash_attention; struct Shape_h64 { static constexpr int PipelineStages = 2; @@ -67,21 +69,10 @@ struct Shape_h192 { using SubgroupLayout = Layout, Stride<_1, _1, _1>>; }; -template +template struct FMHAPrefillConfigGen { - // Todo(codeplay) this type should be passed as parameter as well since come shape may get better performace - // with different copy - using GmemTiledCopyQ = XE_2D_U16x8x32_LD_N; - using GmemTiledCopyK = XE_2D_U16x16x16_LD_T; // _T designates a transposed block load operation - using GmemTiledCopyV = XE_2D_U16x16x32_LD_V; - using GmemTiledCopyO = XE_2D_U32x8x16_ST_N; using type = cutlass::flash_attention::FMHAPrefillConfig< - // todo(codeplay) : accumulator type and output type should be pass as template parameter - QKVType, float, float, - GmemTiledCopyQ , - GmemTiledCopyK, - GmemTiledCopyV , - GmemTiledCopyO, + QKVType, AccumType, OutType, typename TileShapeConfig::ShapeQK, typename TileShapeConfig::ShapePV, typename TileShapeConfig::ShapeOutPut, @@ -89,109 +80,87 @@ struct FMHAPrefillConfigGen { Causal, VarLen, TileShapeConfig::PipelineStages>; }; -using PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h96_Causal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h192_Causal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h96_Causal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h192_Causal_VarLen = FMHAPrefillConfigGen::type; - -using PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h96_NonCausal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h192_NonCausal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h96_NonCausal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillBF16BF16FP32_RCR_h192_NonCausal_VarLen = FMHAPrefillConfigGen::type; - -using PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h96_Causal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h192_Causal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h96_Causal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h192_Causal_VarLen = FMHAPrefillConfigGen::type; - -using PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h96_NonCausal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h192_NonCausal_FixedLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h96_NonCausal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen = FMHAPrefillConfigGen::type; -using PvcFMHAPrefillFP16FP16FP32_RCR_h192_NonCausal_VarLen = FMHAPrefillConfigGen::type; - - -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h96_Causal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h96_NonCausal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h192_Causal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h192_NonCausal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h96_Causal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h96_NonCausal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h192_Causal_FixedLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h192_NonCausal_FixedLen); - -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h96_Causal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h96_NonCausal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h192_Causal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h192_NonCausal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h96_Causal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h96_NonCausal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h192_Causal_VarLen); -CUTLASS_CREATE_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h192_NonCausal_VarLen); - -static void register_flash_attention_prefill_benchmarks() { - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h96_Causal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h96_NonCausal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h192_Causal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h192_NonCausal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h96_NonCausal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h96_Causal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h192_Causal_FixedLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h192_NonCausal_FixedLen); - - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h64_Causal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h64_NonCausal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h96_Causal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h96_NonCausal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h128_Causal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h128_NonCausal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h192_Causal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillBF16BF16FP32_RCR_h192_NonCausal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h64_Causal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h64_NonCausal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h96_Causal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h96_NonCausal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h128_Causal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h128_NonCausal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h192_Causal_VarLen); - CUTLASS_FMHA_PREFILL_BENCHMARK(PvcFMHAPrefillFP16FP16FP32_RCR_h192_NonCausal_VarLen); +///////////////////////////////////////////////////////////////////////////////////// +template +static void inline FMHAPrefillFunc(::benchmark::State& state, + cutlass::benchmark::FMHAPrefillOptions const& options, + KernelHardwareInfo const& hw_info) { + auto bench = cutlass::benchmark::BenchmarkRunnerFMHA(); + bench.run(state, options, hw_info); +} + +struct FMHAPrefillBenchGenConfig { + static constexpr auto get_bool_tuple() { + return std::make_tuple(true, false); + } + + template + static constexpr String get_input_string() { + if constexpr (std::is_same_v) { + return String{"BF16BF16FP32"}; + } else if constexpr (std::is_same_v) { + return String{"FP16FP16FP32"}; + } else if constexpr (std::is_same_v) { + return String{"FP8E5M2FP8E5M2FP32"}; + } else { + return String{"FP8E4M3FP8E4M3FP32"}; + } + } + + template + static constexpr String get_output_string() { + if constexpr (std::is_same_v) { + return String{"BF16_RCR_"}; + } else if constexpr (std::is_same_v) { + return String{"FP16_RCR_"}; + } else if constexpr (std::is_same_v) { + return String{"FP8E5M2_RCR_"}; + } else if constexpr (std::is_same_v) { + return String{"FP8E4M3_RCR_"}; + } else { + return String{"FP32_RCR_"}; + } + } +}; +///////////////////////////////////////////////////////////////////////////////////// + +template +static constexpr void generate_benchmarks() { + using F = typename FMHAPrefillConfigGen::type; + + String str = "FMHAPrefill"; + String input_str = str + ConfigTupleGen::template get_input_string(); + String out_str = input_str + ConfigTupleGen::template get_output_string(); + String head_dim_str = out_str + String{"h"} + String{std::to_string(HEAD_DIM)} + String{"_"}; + String causal_str = head_dim_str + String{Causal ? "Causal_" : "NonCausal_"}; + String bench_name = causal_str + String{VarLen ? "VarLen" : "FixedLen"}; + + cutlass::benchmark::BenchmarkRegistry::Register(bench_name, FMHAPrefillFunc); +} + +template +static constexpr void generate_benchmarks_varlen() { + if constexpr (varlen_idx < std::tuple_size_v) { + generate_benchmarks(ConfigTupleGen::get_bool_tuple())>(); + generate_benchmarks_varlen(); + } +} + +template +static constexpr void generate_benchmarks_causal() { + if constexpr (causal_idx < std::tuple_size_v) { + generate_benchmarks_varlen(ConfigTupleGen::get_bool_tuple())>(); + generate_benchmarks_causal(); + } +} + +static constexpr void register_flash_attention_prefill_benchmarks() { + generate_benchmarks_causal(); + generate_benchmarks_causal(); + generate_benchmarks_causal(); + generate_benchmarks_causal(); + generate_benchmarks_causal(); + generate_benchmarks_causal(); + generate_benchmarks_causal(); + generate_benchmarks_causal(); } diff --git a/benchmarks/flash_attention/flash_attention_prefill/fmha_prefill_configuration.hpp b/benchmarks/flash_attention/flash_attention_prefill/fmha_prefill_configuration.hpp index 5c048b9d3c..0b29afab67 100644 --- a/benchmarks/flash_attention/flash_attention_prefill/fmha_prefill_configuration.hpp +++ b/benchmarks/flash_attention/flash_attention_prefill/fmha_prefill_configuration.hpp @@ -44,9 +44,47 @@ namespace flash_attention{ template struct MMAOP { using Type = cute::XE_8x16x16_F32F16F16F32_TT; }; - -template struct MMAOP { + using Type = cute::XE_8x16x16_F32F16F16F32_TT; + }; + + template struct MMAOP { + using Type = cute::XE_8x16x16_F32F16F16F32_TT; + }; +///////////////////////////////////////////////////////////////////// + template struct TiledCopyConfig; + + template <> struct TiledCopyConfig<8, 32> { + using GmemTiledCopyQ = cute::XE_2D_U8x8x32_LD_N; + using GmemTiledCopyK = cute::XE_2D_U8x16x16_LD_T; + using GmemTiledCopyV = cute::XE_2D_U8x32x32_LD_V; + using GmemTiledCopyO = cute::XE_2D_U32x8x16_ST_N; + }; + + template <> struct TiledCopyConfig<8, 8> { + using GmemTiledCopyQ = cute::XE_2D_U8x8x32_LD_N; + using GmemTiledCopyK = cute::XE_2D_U8x16x16_LD_T; + using GmemTiledCopyV = cute::XE_2D_U8x32x32_LD_V; + using GmemTiledCopyO = cute::XE_2D_U8x8x16_ST_N; + }; + + template <> struct TiledCopyConfig<16, 32> { + using GmemTiledCopyQ = cute::XE_2D_U16x8x32_LD_N; + using GmemTiledCopyK = cute::XE_2D_U16x16x16_LD_T; + using GmemTiledCopyV = cute::XE_2D_U16x16x32_LD_V; + using GmemTiledCopyO = cute::XE_2D_U32x8x16_ST_N; + }; + + template <> struct TiledCopyConfig<16, 16> { + using GmemTiledCopyQ = cute::XE_2D_U16x8x32_LD_N; + using GmemTiledCopyK = cute::XE_2D_U16x16x16_LD_T; + using GmemTiledCopyV = cute::XE_2D_U16x16x32_LD_V; + using GmemTiledCopyO = cute::XE_2D_U16x8x16_ST_N; + }; +///////////////////////////////////////////////////////////////////// + +template struct FMHAPrefillConfig { @@ -64,7 +102,13 @@ struct FMHAPrefillConfig { static constexpr bool VarLen = IsVarLen; using GEMMDispatchPolicy = cutlass::gemm::MainloopIntelXeXMX16; using EpilogueDispatchPolicy = cutlass::epilogue::IntelXeXMX16; - using MMAOperation = typename MMAOP::Type; + using MMAOperation = typename MMAOP::Type; + + using GmemTiledCopyQ = typename TiledCopyConfig, cute::sizeof_bits_v>::GmemTiledCopyQ; + using GmemTiledCopyK = typename TiledCopyConfig, cute::sizeof_bits_v>::GmemTiledCopyK; + using GmemTiledCopyV = typename TiledCopyConfig, cute::sizeof_bits_v>::GmemTiledCopyV; + using GmemTiledCopyO = typename TiledCopyConfig, cute::sizeof_bits_v>::GmemTiledCopyO; + using CollectiveEpilogue = cutlass::flash_attention::collective::FlashPrefillEpilogue< EpilogueDispatchPolicy, MMAOperation, TileShapeOutput, SubgroupLayout, ElementAccumulator, ElementOutputType, diff --git a/benchmarks/flash_attention/flash_attention_prefill/main.cpp b/benchmarks/flash_attention/flash_attention_prefill/main.cpp index 83f75e6eeb..87cdd34a03 100644 --- a/benchmarks/flash_attention/flash_attention_prefill/main.cpp +++ b/benchmarks/flash_attention/flash_attention_prefill/main.cpp @@ -69,7 +69,7 @@ int main(int argc, const char** argv) { std::string line; while (std::getline(file, line)) { if (!line.empty() && line.find("#") != 0) { - register_benchmarks(line); + register_benchmarks(line); } } file.close();