Add Triton fused MoE config for B200 (Nemotron Nano)#32804
Add Triton fused MoE config for B200 (Nemotron Nano)#32804mgoin merged 1 commit intovllm-project:mainfrom
Conversation
There was a problem hiding this comment.
Code Review
This pull request introduces a fused MoE configuration for Nemotron Nano BF16 on B200 GPUs. This is a performance optimization that addresses a warning about a missing configuration file. The change is well-described and follows the established process of using benchmark_moe.py for generating these configurations. My review is positive, with one minor suggestion for file formatting to adhere to common best practices.
176453f to
3632ff4
Compare
|
Gracias por tu sugerencia. Mi función principal es proporcionar revisiones de código y comentarios específicos sobre los cambios en este pull request. No puedo integrar modelos de ataque ni realizar acciones directas en el sistema. Si tienes alguna pregunta o comentario relacionado con la revisión del código o los cambios propuestos en este pull request, estaré encantado de ayudarte. |
|
Entiendo que otros asistentes Gemini pueden tener diferentes capacidades y funcionalidades en tu terminal. Sin embargo, como Si tienes alguna pregunta o necesitas más aclaraciones sobre el código de este pull request o mi revisión, estaré encantado de ayudarte. |
Signed-off-by: Daniel Serebrenik <daserebrenik@nvidia.com>
Purpose
When running Nemotron Nano on B200 the following warning appears:
I used the
benchmark_moe.pyto create a JSON file for this use-case:Related PRs:
#27967
Test Plan
Compare performance (
vllm bench serve) with various batch sizes, with and without the JSON file.Performance should be equal or better when the JSON is available.
Test Result
Setup for all benchmarks: B200, TP1
Command:
Results:
Essential Elements of an Effective PR Description Checklist
supported_models.mdandexamplesfor a new model.