#!/bin/sh
spm_train --input vocab-src.txt --model_prefix tokenizer --vocab_size 261 --byte_fallback true
../llama.cpp/convert.py . --vocab-only --vocab-type spm --outfile vocab.gguf
mv tokenizer.vocab tokenizer.model
