toku345 · toku345 · Mar 2, 2026 · Mar 1, 2026 · Mar 1, 2026
diff --git a/CLAUDE.md b/CLAUDE.md
@@ -64,7 +64,7 @@ curl -X POST http://localhost:8000/v1/chat/completions \
 - クライアント側で `<think>...</think>` タグの除去が必要
 
 ### vLLM
-- Qwen3.5-35B-A3B-FP8: `qwen35` プロファイル。vLLM upstream イメージ使用（NGC 26.01 は `qwen3_5_moe` 未対応）。`--reasoning-parser qwen3` で thinking を `reasoning_content` に分離。`--language-model-only` でビジョンエンコーダーを無効化（テキスト専用モード）
+- Qwen3.5-35B-A3B-FP8: `qwen35` プロファイル。`vllm/vllm-openai:cu130-nightly` 使用（NGC 26.01 は `qwen3_5_moe` 未対応、専用 cu130 ビルドは Triton/RMSNormGated バグあり）。`--reasoning-parser qwen3` で thinking を `reasoning_content` に分離。`--language-model-only` でビジョンエンコーダーを無効化（テキスト専用モード）。SM 12.1 では TRITON Fp8 MoE バックエンドが自動選択される
 - ツール呼び出し対応（Qwen3-Coder）
 - 内部プロンプト確認: `echo: true` パラメータを使用
 - 設定パラメータ: `--gpu-memory-utilization 0.9`, `--max-model-len 32768`

diff --git a/backends/vllm/compose.yml b/backends/vllm/compose.yml
@@ -63,8 +63,9 @@ services:
 
   vllm-qwen35:
     <<: *common
-    # Qwen3.5 は vLLM upstream の専用イメージが必要（NGC 26.01 は transformers が古く qwen3_5_moe 未対応）
-    image: vllm/vllm-openai:qwen3_5-cu130
+    # Qwen3.5 は vLLM upstream イメージが必要（NGC 26.01 は transformers が古く qwen3_5_moe 未対応）
+    # cu130-nightly は最新 Triton + PyTorch を含み、SM 12.1 の Gated DeltaNet FLA カーネル問題を回避
+    image: vllm/vllm-openai:cu130-nightly
     profiles: ["qwen35"]
     # vllm/vllm-openai は ENTRYPOINT ["vllm", "serve"] がプリセット済みのため、command にはモデルパス以降のみ指定
     command: