LLM KV Cache Sparsity

Implement some method of LLM KV Cache Sparsity, including:

To Run

pip install -r requirements.txt
# edit longbench loading method `load_from_disk` in example/test.py
python example/test.py --sparsity_method snapkv

The result file will write to results folder.

Then you can use longbench_eval/eval.py to get the scores.

The core code for KV Cache eviction is in models/kv_clusters.py

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
assets		assets
config		config
examples		examples
longbench_eval		longbench_eval
models		models
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
utils.py		utils.py