Mixed precision export support for gptq quantized model by rM-planet · Pull Request #1853 · microsoft/onnxruntime-genai

rM-planet · 2025-11-03T22:26:05Z

1> Changes in OGA to support mixed precision export of models quantized with GPTQModel.
2> Changes to decide whether to use packed matmul or not on the basis of q,k,v precisions.

rM-planet · 2025-11-03T22:29:14Z

@baijumeswani Please review. Thanks!

src/python/py/models/builder.py

src/python/py/models/quantized_model.py

src/python/py/models/builder.py

gtonpe · 2025-11-07T18:31:41Z

In Review

src/python/py/models/builder.py

kunal-vaishnavi reviewed Nov 5, 2025

View reviewed changes

src/python/py/models/builder.py Outdated Show resolved Hide resolved

kunal-vaishnavi reviewed Nov 5, 2025

View reviewed changes

src/python/py/models/quantized_model.py Outdated Show resolved Hide resolved

rM-planet force-pushed the gptqmodel_mixed_precision branch from f74cae5 to e6ff697 Compare November 6, 2025 01:39

kunal-vaishnavi reviewed Nov 6, 2025

View reviewed changes

src/python/py/models/builder.py Outdated Show resolved Hide resolved

kunal-vaishnavi mentioned this pull request Nov 7, 2025

Shared emb_tokens/lm_head on fp16 & uint4 weights #1854

Closed

rM-planet force-pushed the gptqmodel_mixed_precision branch 2 times, most recently from f6386c2 to 10059d2 Compare November 7, 2025 23:41

kunal-vaishnavi reviewed Nov 8, 2025

View reviewed changes

src/python/py/models/builder.py Outdated Show resolved Hide resolved

rM-planet force-pushed the gptqmodel_mixed_precision branch from 10059d2 to 107e483 Compare November 10, 2025 17:50

Mixed precision export support for gptq quantized model

2fd49fd

rM-planet force-pushed the gptqmodel_mixed_precision branch from 107e483 to 2fd49fd Compare November 10, 2025 22:37

rM-planet requested a review from kunal-vaishnavi November 11, 2025 17:13

kunal-vaishnavi approved these changes Nov 11, 2025

View reviewed changes

kunal-vaishnavi enabled auto-merge (squash) November 11, 2025 18:12

kunal-vaishnavi merged commit 14c4999 into microsoft:main Nov 11, 2025
15 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Mixed precision export support for gptq quantized model#1853

Mixed precision export support for gptq quantized model#1853
kunal-vaishnavi merged 1 commit intomicrosoft:mainfrom
CodeLinaro:gptqmodel_mixed_precision

rM-planet commented Nov 3, 2025 •

edited

Loading

Uh oh!

rM-planet commented Nov 3, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

gtonpe commented Nov 7, 2025

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Conversation

rM-planet commented Nov 3, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

rM-planet commented Nov 3, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

gtonpe commented Nov 7, 2025

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

rM-planet commented Nov 3, 2025 •

edited

Loading