diff --git a/CLAUDE.md b/CLAUDE.md index 6ea70bb..c2d275b 100644 --- a/CLAUDE.md +++ b/CLAUDE.md @@ -64,7 +64,7 @@ curl -X POST http://localhost:8000/v1/chat/completions \ - クライアント側で `...` タグの除去が必要 ### vLLM -- Qwen3.5-35B-A3B-FP8: `qwen35` プロファイル。vLLM upstream イメージ使用(NGC 26.01 は `qwen3_5_moe` 未対応)。`--reasoning-parser qwen3` で thinking を `reasoning_content` に分離。`--language-model-only` でビジョンエンコーダーを無効化(テキスト専用モード) +- Qwen3.5-35B-A3B-FP8: `qwen35` プロファイル。`vllm/vllm-openai:cu130-nightly` 使用(NGC 26.01 は `qwen3_5_moe` 未対応、専用 cu130 ビルドは Triton/RMSNormGated バグあり)。`--reasoning-parser qwen3` で thinking を `reasoning_content` に分離。`--language-model-only` でビジョンエンコーダーを無効化(テキスト専用モード)。SM 12.1 では TRITON Fp8 MoE バックエンドが自動選択される - ツール呼び出し対応(Qwen3-Coder) - 内部プロンプト確認: `echo: true` パラメータを使用 - 設定パラメータ: `--gpu-memory-utilization 0.9`, `--max-model-len 32768` diff --git a/backends/vllm/compose.yml b/backends/vllm/compose.yml index 2092ee6..151d5e7 100644 --- a/backends/vllm/compose.yml +++ b/backends/vllm/compose.yml @@ -63,8 +63,9 @@ services: vllm-qwen35: <<: *common - # Qwen3.5 は vLLM upstream の専用イメージが必要(NGC 26.01 は transformers が古く qwen3_5_moe 未対応) - image: vllm/vllm-openai:qwen3_5-cu130 + # Qwen3.5 は vLLM upstream イメージが必要(NGC 26.01 は transformers が古く qwen3_5_moe 未対応) + # cu130-nightly は最新 Triton + PyTorch を含み、SM 12.1 の Gated DeltaNet FLA カーネル問題を回避 + image: vllm/vllm-openai:cu130-nightly profiles: ["qwen35"] # vllm/vllm-openai は ENTRYPOINT ["vllm", "serve"] がプリセット済みのため、command にはモデルパス以降のみ指定 command: