@@ -211,9 +211,9 @@ static void ggml_cuda_flash_attn_ext_vec_f16(ggml_backend_cuda_context & ctx, gg
211211 FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
212212 // FATTN_VEC_F16_CASE(128, GGML_TYPE_IQ4_NL, GGML_TYPE_F16)
213213
214- // FATTN_VEC_F16_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
214+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
215215 // FATTN_VEC_F16_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_F16)
216- // FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_Q8_0)
216+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
217217 FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
218218
219219 // FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
@@ -224,14 +224,14 @@ static void ggml_cuda_flash_attn_ext_vec_f16(ggml_backend_cuda_context & ctx, gg
224224 // FATTN_VEC_F16_CASE(128, GGML_TYPE_Q5_1, GGML_TYPE_Q5_0)
225225 FATTN_VEC_F16_CASE (128 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
226226
227- // FATTN_VEC_F16_CASE( 64, GGML_TYPE_F16, GGML_TYPE_Q8_0)
228- // FATTN_VEC_F16_CASE( 64, GGML_TYPE_F16, GGML_TYPE_F16)
229- // FATTN_VEC_F16_CASE(128, GGML_TYPE_F16, GGML_TYPE_Q8_0)
230- // FATTN_VEC_F16_CASE(128, GGML_TYPE_F16, GGML_TYPE_F16)
231- // FATTN_VEC_F16_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
227+ FATTN_VEC_F16_CASE ( 64 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
228+ FATTN_VEC_F16_CASE ( 64 , GGML_TYPE_F16, GGML_TYPE_F16)
229+ FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
230+ FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
231+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
232232 // FATTN_VEC_F16_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_F16)
233- // FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_Q8_0)
234- // FATTN_VEC_F16_CASE(256, GGML_TYPE_F16, GGML_TYPE_F16)
233+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
234+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
235235
236236 // FATTN_VEC_F16_CASE( 64, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
237237 // FATTN_VEC_F16_CASE(128, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
@@ -346,9 +346,9 @@ static void ggml_cuda_flash_attn_ext_vec_f32(ggml_backend_cuda_context & ctx, gg
346346 FATTN_VEC_F32_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
347347 // FATTN_VEC_F32_CASE(128, GGML_TYPE_IQ4_NL, GGML_TYPE_F16)
348348
349- // FATTN_VEC_F32_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
349+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
350350 // FATTN_VEC_F32_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_F16)
351- // FATTN_VEC_F32_CASE(256, GGML_TYPE_F16, GGML_TYPE_Q8_0)
351+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
352352 FATTN_VEC_F32_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
353353
354354 // FATTN_VEC_F32_CASE(256, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
@@ -358,14 +358,14 @@ static void ggml_cuda_flash_attn_ext_vec_f32(ggml_backend_cuda_context & ctx, gg
358358 // FATTN_VEC_F32_CASE(128, GGML_TYPE_Q5_1, GGML_TYPE_Q5_0)
359359 FATTN_VEC_F32_CASE (128 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
360360
361- // FATTN_VEC_F32_CASE( 64, GGML_TYPE_F16, GGML_TYPE_Q8_0)
362- // FATTN_VEC_F32_CASE( 64, GGML_TYPE_F16, GGML_TYPE_F16)
363- // FATTN_VEC_F32_CASE(128, GGML_TYPE_F16, GGML_TYPE_Q8_0)
364- // FATTN_VEC_F32_CASE(128, GGML_TYPE_F16, GGML_TYPE_F16)
365- // FATTN_VEC_F32_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
361+ FATTN_VEC_F32_CASE ( 64 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
362+ FATTN_VEC_F32_CASE ( 64 , GGML_TYPE_F16, GGML_TYPE_F16)
363+ FATTN_VEC_F32_CASE (128 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
364+ FATTN_VEC_F32_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
365+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
366366 // FATTN_VEC_F32_CASE(256, GGML_TYPE_Q8_0, GGML_TYPE_F16)
367- // FATTN_VEC_F32_CASE(256, GGML_TYPE_F16, GGML_TYPE_Q8_0)
368- // FATTN_VEC_F32_CASE(256, GGML_TYPE_F16, GGML_TYPE_F16)
367+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_F16, GGML_TYPE_Q8_0)
368+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
369369
370370 // FATTN_VEC_F32_CASE( 64, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
371371 // FATTN_VEC_F32_CASE(128, GGML_TYPE_F16, GGML_TYPE_IQ4_NL)
0 commit comments