@@ -212,9 +212,9 @@ static void ggml_cuda_flash_attn_ext_vec_f16(ggml_backend_cuda_context & ctx, gg
212212 FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
213213 // FATTN_VEC_F16_CASE(128, GGML_TYPE_IQ4_NL, GGML_TYPE_F16)
214214
215- // FATTN_VEC_F16_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
215+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
216216 // FATTN_VEC_F16_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_F16)
217- // FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_Q8_0)
217+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
218218 FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
219219
220220 // FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
@@ -225,14 +225,14 @@ static void ggml_cuda_flash_attn_ext_vec_f16(ggml_backend_cuda_context & ctx, gg
225225 // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q5_1, GGML_TYPE_Q5_0)
226226 // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
227227
228- // FATTN_VEC_F16_CASE( 64, GGML_TYPE_F16, GGML_TYPE_Q8_0)
229- // FATTN_VEC_F16_CASE( 64, GGML_TYPE_F16, GGML_TYPE_F16)
230- // FATTN_VEC_F16_CASE(128, GGML_TYPE_F16, GGML_TYPE_Q8_0)
231- // FATTN_VEC_F16_CASE(128, GGML_TYPE_F16, GGML_TYPE_F16)
232- // FATTN_VEC_F16_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
228+ FATTN_VEC_F16_CASE ( 64 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
229+ FATTN_VEC_F16_CASE ( 64 , GGML_TYPE_F16, GGML_TYPE_F16)
230+ FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
231+ FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
232+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
233233 // FATTN_VEC_F16_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_F16)
234- // FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_Q8_0)
235- // FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_F16)
234+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
235+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
236236
237237 // FATTN_VEC_F16_CASE( 64, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
238238 // FATTN_VEC_F16_CASE(128, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
@@ -347,9 +347,9 @@ static void ggml_cuda_flash_attn_ext_vec_f32(ggml_backend_cuda_context & ctx, gg
347347 FATTN_VEC_F32_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
348348 // FATTN_VEC_F32_CASE(128, GGML_TYPE_IQ4_NL, GGML_TYPE_F16)
349349
350- // FATTN_VEC_F32_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
350+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
351351 // FATTN_VEC_F32_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_F16)
352- // FATTN_VEC_F32_CASE(256, GGML_TYPE_F16, GGML_TYPE_Q8_0)
352+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
353353 FATTN_VEC_F32_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
354354
355355 // FATTN_VEC_F32_CASE(256, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
@@ -359,14 +359,14 @@ static void ggml_cuda_flash_attn_ext_vec_f32(ggml_backend_cuda_context & ctx, gg
359359 // FATTN_VEC_F32_CASE(128, GGML_TYPE_Q5_1, GGML_TYPE_Q5_0)
360360 // FATTN_VEC_F32_CASE(128, GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
361361
362- // FATTN_VEC_F32_CASE( 64, GGML_TYPE_F16, GGML_TYPE_Q8_0)
363- // FATTN_VEC_F32_CASE( 64, GGML_TYPE_F16, GGML_TYPE_F16)
364- // FATTN_VEC_F32_CASE(128, GGML_TYPE_F16, GGML_TYPE_Q8_0)
365- // FATTN_VEC_F32_CASE(128, GGML_TYPE_F16, GGML_TYPE_F16)
366- // FATTN_VEC_F32_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
362+ FATTN_VEC_F32_CASE ( 64 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
363+ FATTN_VEC_F32_CASE ( 64 , GGML_TYPE_F16, GGML_TYPE_F16)
364+ FATTN_VEC_F32_CASE (128 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
365+ FATTN_VEC_F32_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
366+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
367367 // FATTN_VEC_F32_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_F16)
368- // FATTN_VEC_F32_CASE(256, GGML_TYPE_F16, GGML_TYPE_Q8_0)
369- // FATTN_VEC_F32_CASE(256, GGML_TYPE_F16, GGML_TYPE_F16)
368+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
369+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
370370
371371 // FATTN_VEC_F32_CASE( 64, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
372372 // FATTN_VEC_F32_CASE(128, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
0 commit comments