@@ -248,6 +248,7 @@ static void ggml_cuda_flash_attn_ext_vec_f16(ggml_backend_cuda_context & ctx, gg
248248 FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
249249
250250 FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
251+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_Q8_0,GGML_TYPE_Q8_0)
251252
252253 FATTN_VEC_F16_CASE (128 , GGML_TYPE_IQ4_NL, GGML_TYPE_IQ4_NL)
253254 FATTN_VEC_F16_CASE (128 , GGML_TYPE_Q8_0, GGML_TYPE_IQ4_NL)
@@ -265,6 +266,7 @@ static void ggml_cuda_flash_attn_ext_vec_f16(ggml_backend_cuda_context & ctx, gg
265266 FATTN_VEC_F16_CASE ( 64 , GGML_TYPE_F16, GGML_TYPE_F16)
266267 FATTN_VEC_F16_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
267268 FATTN_VEC_F16_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
269+ FATTN_VEC_F16_CASE (256 , GGML_TYPE_Q8_0,GGML_TYPE_Q8_0)
268270
269271 FATTN_VEC_F16_CASE (128 , GGML_TYPE_IQ4_NL, GGML_TYPE_IQ4_NL)
270272 FATTN_VEC_F16_CASE (128 , GGML_TYPE_Q8_0, GGML_TYPE_IQ4_NL)
@@ -347,6 +349,7 @@ static void ggml_cuda_flash_attn_ext_vec_f32(ggml_backend_cuda_context & ctx, gg
347349 FATTN_VEC_F32_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
348350
349351 FATTN_VEC_F32_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
352+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_Q8_0,GGML_TYPE_Q8_0)
350353
351354 FATTN_VEC_F32_CASE_DKDV (192 , 128 , GGML_TYPE_F16, GGML_TYPE_F16)
352355 FATTN_VEC_F32_CASE_DKDV (192 , 128 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
@@ -358,6 +361,7 @@ static void ggml_cuda_flash_attn_ext_vec_f32(ggml_backend_cuda_context & ctx, gg
358361 FATTN_VEC_F32_CASE ( 64 , GGML_TYPE_F16, GGML_TYPE_F16)
359362 FATTN_VEC_F32_CASE (128 , GGML_TYPE_F16, GGML_TYPE_F16)
360363 FATTN_VEC_F32_CASE (256 , GGML_TYPE_F16, GGML_TYPE_F16)
364+ FATTN_VEC_F32_CASE (256 , GGML_TYPE_Q8_0,GGML_TYPE_Q8_0)
361365
362366 FATTN_VEC_F32_CASE_DKDV (192 , 128 , GGML_TYPE_F16, GGML_TYPE_F16)
363367 FATTN_VEC_F32_CASE_DKDV (192 , 128 , GGML_TYPE_Q8_0, GGML_TYPE_Q8_0)
0 commit comments