[CPU] Optimize Qwen3-next model on CPU by jianan-gu · Pull Request #12525 · sgl-project/sglang

jianan-gu · 2025-11-03T02:41:25Z

This PR adds unified CPU optimizations for Qwen3-next models, including:

Add CPU paths to call optimized kernels, which is depending on below sgl-kernels:
a. chunk_gated_delta_rule [CPU] Support chunk_gated_delta_rule kernel for Qwen3-Next #12441
b. fused_sigmoid_gating_delta_rule_update and fused_gdn_gating [CPU] add mamba fla kernels for Qwen3-next #12324
c. fused_qkvzba_split_reshape_cat [CPU] add fused_qkvzba_split_reshape_cat kernel for Qwen3-next #12330
d. Conv1d (fn/update) [CPU] add support for mamba causal conv1d for qwen3-next #12309
e. rmsnorm Add fused_rmsnorm_gated_cpu kernel for CPU to support Qwen3-Next #11577
Fix TP odd size padding issue (like TP3/6), including padding for: (1) conv1d weight (2) linear attention QK and V num heads. (3) dt_bias and A_log (4) shared_expert_intermediate_size
fix issues in amx backend (port from [CPU] Add native support for Qwen3-next #12305):
a. Weight packing dtype check: weight packing did not support torch.float. This pr adds dtype validation before packing weight
b. HybridLinearKVPool layer ID handling: Only full attention layers can access get_value_buffer, but layer_id = 0 is not always a full attention layer. This PR updates the logic to handle such cases correctly.
c. Top-k kernel support: Top-k related kernels lacked support for num_experts = 512. This PR adds support for this configuration.

mingfeima · 2025-11-10T02:44:39Z

merge [Draft] [CPU] Add TP padding for qwen3-next on CPU #12445 into this one
change this authors of this PR: Beilei if so (we still need to track our contributions in open source, this is individual marks)
put details in the PR comments: what kind of changes that we make, for example: a) adopt qwen3 optimizations; b) fix TP; and so on.

mingfeima · 2025-11-10T02:48:20Z

@jianan-gu rebase.

yizhang2077

As long as ci is passed and tiny suggestions are resolved, it can be merged

yizhang2077 · 2026-01-21T07:32:28Z

/rerun-failed-ci

jianan-gu · 2026-01-21T07:38:48Z

Checked Xeon/XPU CI failures are not related to this PR and due to known issue on main branch (link: #17460)

jianan-gu · 2026-01-21T14:32:47Z

Checked CI failures are not related to this PR changes.

jianan-gu · 2026-01-22T01:22:03Z

/rerun-failed-ci

jianan-gu · 2026-01-23T04:54:03Z

/rerun-failed-ci

jianan-gu · 2026-01-26T01:58:25Z

/rerun-failed-ci

jianan-gu · 2026-01-27T01:16:52Z

/rerun-failed-ci

jianan-gu · 2026-01-29T01:00:09Z

/rerun-failed-ci

jianan-gu · 2026-01-29T02:48:50Z

/rerun-failed-ci

jianan-gu · 2026-01-29T05:57:38Z

/rerun-failed-ci

jianan-gu · 2026-01-29T07:41:59Z

/rerun-failed-ci

jianan-gu · 2026-01-29T08:53:20Z

/rerun-failed-ci

jianan-gu · 2026-01-29T10:57:16Z

/rerun-failed-ci

jianan-gu · 2026-01-30T01:48:59Z

/rerun-failed-ci

Co-authored-by: Ma Mingfei <mingfei.ma@intel.com> Co-authored-by: Fan Yin <1106310035@qq.com>

jianan-gu added 3 commits November 2, 2025 21:40

add CPU optimized frontend for qwen3-next

626ec0a

minor fix

7d7fa12

memory pool changes for amx conv

b1472a1

mingfeima added cpu cpu backend performance optimization intel labels Nov 10, 2025

add TP padding for qwen3-next on CPU

6be8b13

jianan-gu mentioned this pull request Nov 14, 2025

[Draft] [CPU] Add TP padding for qwen3-next on CPU #12445

Closed

Merge branch 'main' into qwen-next-cpu-frontend

5564da4

jianan-gu changed the title ~~[CPU][Draft] Add Qwen3-next CPU optimized frontend~~ [CPU]Add Qwen3-next CPU optimized frontend Nov 18, 2025

jianan-gu added 3 commits November 19, 2025 10:33

Merge branch 'main' into qwen-next-cpu-frontend

7ee14bb

fix lint

13571bd

Merge remote-tracking branch 'origin/main' into qwen-next-cpu-frontend

fef27aa

jianan-gu marked this pull request as ready for review December 1, 2025 05:29

jianan-gu requested review from BBuf, Edwardf0t1, Fridge003, HaiShaw, Ying1123, ch-wan, hnyls2002, ispobock, merrymercy and xiezhq-hermann as code owners December 1, 2025 05:29

Merge branch 'main' into qwen-next-cpu-frontend

167a01d

mingfeima mentioned this pull request Dec 4, 2025

[Roadmap] Intel CPU Roadmap (2025Q4) #12802

Open

2 tasks

jianan-gu added 2 commits December 4, 2025 20:34

Merge remote-tracking branch 'origin/main' into qwen-next-cpu-frontend

bf1e05d

rebase with latest kernels

0d1559d

jianan-gu requested a review from zhyncs as a code owner December 5, 2025 07:30

refinements per reviews

1a97f90

yizhang2077 approved these changes Jan 21, 2026

View reviewed changes

Merge branch 'main' into qwen-next-cpu-frontend

2b19634

yizhang2077 approved these changes Jan 21, 2026

View reviewed changes

Merge remote-tracking branch 'origin/main' into qwen-next-cpu-frontend

37fa1fb

jianan-gu added 3 commits January 22, 2026 09:49

Merge branch 'main' into qwen-next-cpu-frontend

fdfac34

Merge remote-tracking branch 'origin/main' into qwen-next-cpu-frontend

9837203

minor refine after rebase

7be31cb

blzheng mentioned this pull request Jan 23, 2026

[CPU] Add native support for Qwen3-next #12305

Closed

4 tasks

Merge branch 'main' into qwen-next-cpu-frontend

19f1eda

Merge branch 'main' into qwen-next-cpu-frontend

2e5a1c1

Merge branch 'main' into qwen-next-cpu-frontend

fd1eb27

Kangyan-Zhou merged commit 336dc45 into sgl-project:main Jan 30, 2026
25 of 40 checks passed

charlesHsuGG pushed a commit to charlesHsuGG/sglang that referenced this pull request Jan 30, 2026

[CPU] Optimize Qwen3-next model on CPU (sgl-project#12525)

81ab7c4

Co-authored-by: Ma Mingfei <mingfei.ma@intel.com> Co-authored-by: Fan Yin <1106310035@qq.com>

sfiisf pushed a commit to sfiisf/sglang that referenced this pull request Feb 5, 2026

[CPU] Optimize Qwen3-next model on CPU (sgl-project#12525)

94740b4

Co-authored-by: Ma Mingfei <mingfei.ma@intel.com> Co-authored-by: Fan Yin <1106310035@qq.com>

Johnsonms pushed a commit to Johnsonms/sglang that referenced this pull request Feb 14, 2026

[CPU] Optimize Qwen3-next model on CPU (sgl-project#12525)

5e3d5dc

Co-authored-by: Ma Mingfei <mingfei.ma@intel.com> Co-authored-by: Fan Yin <1106310035@qq.com>

Conversation

jianan-gu commented Nov 3, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

mingfeima commented Nov 10, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

mingfeima commented Nov 10, 2025

Uh oh!

yizhang2077 left a comment

Choose a reason for hiding this comment

Uh oh!

yizhang2077 commented Jan 21, 2026

Uh oh!

jianan-gu commented Jan 21, 2026

Uh oh!

jianan-gu commented Jan 21, 2026

Uh oh!

jianan-gu commented Jan 22, 2026

Uh oh!

jianan-gu commented Jan 23, 2026

Uh oh!

jianan-gu commented Jan 26, 2026

Uh oh!

jianan-gu commented Jan 27, 2026

Uh oh!

jianan-gu commented Jan 29, 2026

Uh oh!

jianan-gu commented Jan 29, 2026

Uh oh!

jianan-gu commented Jan 29, 2026

Uh oh!

jianan-gu commented Jan 29, 2026

Uh oh!

jianan-gu commented Jan 29, 2026

Uh oh!

jianan-gu commented Jan 29, 2026

Uh oh!

jianan-gu commented Jan 30, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

jianan-gu commented Nov 3, 2025 •

edited

Loading

mingfeima commented Nov 10, 2025 •

edited

Loading