[Script] Update new VLM accuracy test for Qwen3-VL by qichu-yun · Pull Request #135 · zejunchen-zejun/sglang

qichu-yun · 2026-01-06T11:27:01Z

Update new VLM accuracy test for Qwen3-VL

Start evaluating:

    export OPENAI_API_KEY=EMPTY
    export OPENAI_API_BASE=http://localhost:9000/v1
    export PYTHONPATH=/the/path/to/your/sglang/python

    python3 -m lmms_eval \
        --model=openai_compatible \
        --model_args model_version=/mnt/raid0/models/Qwen3-VL-235B-A22B-Instruct-FP8-dynamic/ \
        --tasks mmmu_val   \
        --batch_size 16 \

The result of TP8 on MI308 should be:

    openai_compatible (model_version=/mnt/raid0/models/Qwen3-VL-235B-A22B-Instruct-FP8-dynamic/), gen_kwargs: (), limit: None, num_fewshot: None, batch_size: 16
    | Tasks  |Version|Filter|n-shot| Metric |   |Value |   |Stderr|
    |--------|------:|------|-----:|--------|---|-----:|---|------|
    |mmmu_val|      0|none  |     0|mmmu_acc|↑  |0.607 |±  |   N/A|

sammysun0711 · 2026-01-07T01:02:55Z

May I know why mmmu accuracy measured with lmms_eval: 0.607 is different from accuracy 0.584 measure with benchmark/mmmu/README.md in CI: https://github.com/zejunchen-zejun/sglang/actions/runs/20593023968/job/59141786653

qichu-yun · 2026-01-07T02:33:22Z

May I know why mmmu accuracy measured with lmms_eval: 0.607 is different from accuracy 0.584 measure with benchmark/mmmu/README.md in CI: https://github.com/zejunchen-zejun/sglang/actions/runs/20593023968/job/59141786653

Because accuracy often fluctuates within a certain range, scores between 0.57 and 0.61 are all considered acceptable. When I use the method with benchmark/mmmu/README.md, I often get different results.

[Script] Update new VLM accuracy test for Qwen3-VL

1305eea

qichu-yun force-pushed the update_vlm_test branch from f6ff112 to 1305eea Compare January 6, 2026 11:34

qichu-yun merged commit 6d2106d into dev/perf Jan 6, 2026
4 checks passed

qichu-yun deleted the update_vlm_test branch March 11, 2026 07:27

qichu-yun restored the update_vlm_test branch March 11, 2026 07:27

qichu-yun deleted the update_vlm_test branch March 16, 2026 08:45

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Script] Update new VLM accuracy test for Qwen3-VL#135

[Script] Update new VLM accuracy test for Qwen3-VL#135
qichu-yun merged 1 commit intodev/perffrom
update_vlm_test

qichu-yun commented Jan 6, 2026 •

edited

Loading

Uh oh!

Uh oh!

sammysun0711 commented Jan 7, 2026 •

edited

Loading

Uh oh!

qichu-yun commented Jan 7, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

qichu-yun commented Jan 6, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

sammysun0711 commented Jan 7, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

qichu-yun commented Jan 7, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

qichu-yun commented Jan 6, 2026 •

edited

Loading

sammysun0711 commented Jan 7, 2026 •

edited

Loading

qichu-yun commented Jan 7, 2026 •

edited

Loading