Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion CLAUDE.md
Original file line number Diff line number Diff line change
Expand Up @@ -64,7 +64,7 @@ curl -X POST http://localhost:8000/v1/chat/completions \
- クライアント側で `<think>...</think>` タグの除去が必要

### vLLM
- Qwen3.5-35B-A3B-FP8: `qwen35` プロファイル。vLLM upstream イメージ使用(NGC 26.01 は `qwen3_5_moe` 未対応)。`--reasoning-parser qwen3` で thinking を `reasoning_content` に分離。`--language-model-only` でビジョンエンコーダーを無効化(テキスト専用モード)
- Qwen3.5-35B-A3B-FP8: `qwen35` プロファイル。`vllm/vllm-openai:cu130-nightly` 使用(NGC 26.01 は `qwen3_5_moe` 未対応、専用 cu130 ビルドは Triton/RMSNormGated バグあり)。`--reasoning-parser qwen3` で thinking を `reasoning_content` に分離。`--language-model-only` でビジョンエンコーダーを無効化(テキスト専用モード)。SM 12.1 では TRITON Fp8 MoE バックエンドが自動選択される
- ツール呼び出し対応(Qwen3-Coder)
- 内部プロンプト確認: `echo: true` パラメータを使用
- 設定パラメータ: `--gpu-memory-utilization 0.9`, `--max-model-len 32768`
Expand Down
5 changes: 3 additions & 2 deletions backends/vllm/compose.yml
Original file line number Diff line number Diff line change
Expand Up @@ -63,8 +63,9 @@ services:

vllm-qwen35:
<<: *common
# Qwen3.5 は vLLM upstream の専用イメージが必要(NGC 26.01 は transformers が古く qwen3_5_moe 未対応)
image: vllm/vllm-openai:qwen3_5-cu130
# Qwen3.5 は vLLM upstream イメージが必要(NGC 26.01 は transformers が古く qwen3_5_moe 未対応)
# cu130-nightly は最新 Triton + PyTorch を含み、SM 12.1 の Gated DeltaNet FLA カーネル問題を回避
image: vllm/vllm-openai:cu130-nightly
Comment thread
toku345 marked this conversation as resolved.
profiles: ["qwen35"]
# vllm/vllm-openai は ENTRYPOINT ["vllm", "serve"] がプリセット済みのため、command にはモデルパス以降のみ指定
command:
Expand Down