[Quantization] Add ModelOpt NVFP4 W4A16 (4-bit weights, fp16/bf16 activations) support#41769

Merged

pavanimajety merged 19 commits into

vllm-project:mainfrom

juhi10071998:w4a16_modelopt_support

May 9, 2026

Commits on May 6, 2026

[ModelOpt] Add NVFP4 W4A16 (4-bit weights, fp16/bf16 acts) support
juhi10071998
committed
[ModelOpt] W4A16: route through MarlinNvFp4LinearKernel adapter
juhi10071998
committed
[ModelOpt] W4A16: tolerate input_scale tensors from W4A4 checkpoints
juhi10071998
committed
[ModelOpt] Rename quant_algo NVFP4_W4A16 -> W4A16_NVFP4
juhi10071998
committed
[ModelOpt] Default ModelOptNvFp4Config args + dispatch unit tests
juhi10071998
committed
Merge branch 'main' into w4a16_modelopt_support
pavanimajety
authored
Merge branch 'main' into w4a16_modelopt_support
juhi10071998
authored

Commits on May 9, 2026