Generic shared emb_tokens/lm_head implementation #1885

jixiongdeng · 2025-11-20T02:39:34Z

Problem

This is a refactored PR from previous shared emb PR.

The current model builder doesn't support shared embeddings layers with 4bit qweights and 16bit float weights, which occupies more room in disk (unnecessary for originally tied embeddings models) and hurts compression rate for quantized models. builder.py doesn't provide flexible options to toggle the graph construction and quantization config, like rtn, kquant, etc.

Solution

Calculated flat_dim in a more generic way on reshape node before GatherBlockQuantized (support 4bit and 8bit).
Added CUDA kernel support in ORT #26484.
Added more extra_options to enable different quant configs and pack options, and shared embeddings.

Running examples:

shared 4 bit k_quant on Phi-4-Mini Instruct:

python src/python/py/models/builder.py -m microsoft/Phi-4-Mini-Instruct -p int4 -e cuda -o export_model/phi4mini_i_kquant_4_4_tied --extra_options int4_is_symmetric=false int4_algo_config=k_quant

shared 16 bit float emb on Phi-4-Mini Instruct:

python src/python/py/models/builder.py -m microsoft/Phi-4-Mini-Instruct -p fp16 -e cuda -o export_model/phi4mini_i_fp16_tied --extra_options shared_embeddings=true

Changes

Modified Files

src/python/py/models/builder.py
src/python/py/models/builders/base.py
src/python/py/models/README.MD

Key Modifications

Computed flat_dim in a generic manner before feeding in GatherBlockQuantized.
Explicitly defined gather_axis and quantize_axis for clarity.
Added shared_embeddings option to tied embed_tokens/lm_head.
Added rtn_last like k_quant_last as a new mixed precision option
Added k_quant like rtn as a new 4 bit quantizer option
Removed int4_tied_embeddings and merged to shared_embeddings.
Added documents.

src/python/py/models/builder.py

src/python/py/models/builders/base.py

… shape&perm for transpose.

src/python/py/models/README.md

jixiongdeng · 2025-11-25T20:53:24Z

@kunal-vaishnavi Thanks for the review! I updated this PR par your suggestions. All checks passed. PTAL.

…hoice (#1893) ## Problem As we discussed in [this PR](#1885), I separate `disable_qkv_fusion` option as a new PR. The current model builder ties q_proj, k_proj and v_proj together as qkv_proj by default, which is not controllable by upstream quantization choice. ## Solution Added `disable_qkv_fusion` in extra_options to override `attention_attrs["use_packed_matmul"]`. Running examples: **untied qvk_projs for 4 bit rtn on Llama-3.2-3B-Instruct**: ``` python src/python/py/models/builder.py -m meta-llama/Llama-3.2-3B-Instruct -p int4 -e cuda -o export_model/llama32_3bi_rtn_u4_untied_qkv --extra_options int4_algo_config=rtn disable_qkv_fusion=true ``` ## Changes ### Modified Files - `src/python/py/models/builder.py` - `src/python/py/models/builders/base.py` - `src/python/py/models/README.MD` ### Key Modifications 1. Added `disable_qkv_fusion` as a part of assigning logic of `attention_attrs["use_packed_matmul"]`. 2. Added documents.

## Problem This is a refactored PR from [previous shared emb PR](#1854). The current model builder doesn't support shared embeddings layers with 4bit qweights and 16bit float weights, which occupies more room in disk (unnecessary for originally tied embeddings models) and hurts compression rate for quantized models. builder.py doesn't provide flexible options to toggle the graph construction and quantization config, like rtn, kquant, etc. ## Solution Calculated flat_dim in a more generic way on reshape node before `GatherBlockQuantized` (support 4bit and 8bit). Added CUDA kernel support in ORT [#26484](microsoft/onnxruntime#26484). Added more extra_options to enable different quant configs and pack options, and shared embeddings. Running examples: **shared 4 bit k_quant on Phi-4-Mini Instruct**: ``` python src/python/py/models/builder.py -m microsoft/Phi-4-Mini-Instruct -p int4 -e cuda -o export_model/phi4mini_i_kquant_4_4_tied --extra_options int4_is_symmetric=false int4_algo_config=k_quant ``` **shared 16 bit float emb on Phi-4-Mini Instruct**: ``` python src/python/py/models/builder.py -m microsoft/Phi-4-Mini-Instruct -p fp16 -e cuda -o export_model/phi4mini_i_fp16_tied --extra_options shared_embeddings=true ``` ## Changes ### Modified Files - `src/python/py/models/builder.py` - `src/python/py/models/builders/base.py` - `src/python/py/models/README.MD` ### Key Modifications 1. Computed `flat_dim` in a generic manner before feeding in `GatherBlockQuantized`. 2. Explicitly defined gather_axis and quantize_axis for clarity. 3. Added `shared_embeddings` option to tied embed_tokens/lm_head. 4. Added `rtn_last` like `k_quant_last` as a new mixed precision option 5. Added `k_quant` like `rtn` as a new 4 bit quantizer option 6. Removed `int4_tied_embeddings` and merged to `shared_embeddings`. 7. Added documents.

…hoice (#1893) ## Problem As we discussed in [this PR](#1885), I separate `disable_qkv_fusion` option as a new PR. The current model builder ties q_proj, k_proj and v_proj together as qkv_proj by default, which is not controllable by upstream quantization choice. ## Solution Added `disable_qkv_fusion` in extra_options to override `attention_attrs["use_packed_matmul"]`. Running examples: **untied qvk_projs for 4 bit rtn on Llama-3.2-3B-Instruct**: ``` python src/python/py/models/builder.py -m meta-llama/Llama-3.2-3B-Instruct -p int4 -e cuda -o export_model/llama32_3bi_rtn_u4_untied_qkv --extra_options int4_algo_config=rtn disable_qkv_fusion=true ``` ## Changes ### Modified Files - `src/python/py/models/builder.py` - `src/python/py/models/builders/base.py` - `src/python/py/models/README.MD` ### Key Modifications 1. Added `disable_qkv_fusion` as a part of assigning logic of `attention_attrs["use_packed_matmul"]`. 2. Added documents.

jixiongdeng added 2 commits November 19, 2025 22:45

Immigrant from prev-refactor PR: #1854

49d26b3

Merged to .

5a31d03

jixiongdeng mentioned this pull request Nov 20, 2025

Shared emb_tokens/lm_head on fp16 & uint4 weights #1854

Closed

jixiongdeng requested review from chenfucn, jambayk, jiafatom, kunal-vaishnavi and tianleiwu November 20, 2025 02:41

kunal-vaishnavi reviewed Nov 20, 2025

View reviewed changes

src/python/py/models/builder.py Show resolved Hide resolved

kunal-vaishnavi reviewed Nov 20, 2025

View reviewed changes

src/python/py/models/builder.py Show resolved Hide resolved

kunal-vaishnavi reviewed Nov 20, 2025

View reviewed changes

src/python/py/models/builders/base.py Outdated Show resolved Hide resolved