llama : fix defrag bugs + add parameter #5735

ggerganov · 2024-02-26T15:26:25Z

KV cache defragmentation can be done in 2 ways:

on demand by the user code via llama_kv_cache_defrag()
automatically when a fragmentation threshold is exceeded

Line 246 in 547ddae

    
           float    defrag_thold;     // defragment the KV cache if holes/size > thold, < 0 disabled (default)

Examples:

# parallel without defragmentation enabled
./parallel -m ./models/llama-7b-v2/ggml-model-f16.gguf -n 128 -ngl 99 -c 2048 -s 1 -np 8 -ns 128 -cb

# with defragmentation enabled (thold = 10%)
./parallel -m ./models/llama-7b-v2/ggml-model-f16.gguf -n 128 -ngl 99 -c 2048 -s 1 -np 8 -ns 128 -cb -dt 0.1

ggml-ci

* llama : fix defrag bugs + enable by default ggml-ci * llama : add defrag_thold parameter ggml-ci * llama : cont * llama : disable log message ggml-ci * llama : fix graph size check during defrag

llama : fix defrag bugs + enable by default

30c29f4

ggml-ci

ggerganov force-pushed the gg/defrag branch from a5446c2 to 30c29f4 Compare February 26, 2024 15:29

ggerganov added 2 commits February 26, 2024 18:19

llama : add defrag_thold parameter

4e35db1

ggml-ci

llama : cont

547ddae

ggerganov changed the title ~~llama : fix defrag bugs + enable by default~~ llama : fix defrag bugs + add parameter Feb 26, 2024

llama : disable log message

3561327

ggml-ci

ggerganov marked this pull request as ready for review February 26, 2024 16:56

llama : fix graph size check during defrag

7824722

ggerganov merged commit 9d533a7 into master Feb 27, 2024
27 of 29 checks passed

ggerganov deleted the gg/defrag branch February 27, 2024 12:35

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llama : fix defrag bugs + add parameter #5735

llama : fix defrag bugs + add parameter #5735

ggerganov commented Feb 26, 2024 •

edited

Loading

llama : fix defrag bugs + add parameter #5735

llama : fix defrag bugs + add parameter #5735

Conversation

ggerganov commented Feb 26, 2024 • edited Loading

ggerganov commented Feb 26, 2024 •

edited

Loading