ggml-org · ggerganov · Jan 27, 2026 · Jan 23, 2026 · Jan 23, 2026 · Jan 23, 2026
@@ -4857,6 +4857,23 @@ ggml_backend_reg_t ggml_backend_cuda_reg() {
         static std::mutex mutex;
         std::lock_guard<std::mutex> lock(mutex);
         if (!initialized) {
+            // Set CUDA_SCALE_LAUNCH_QUEUES before any CUDA API call to improve multi-GPU pipeline parallelism performance
+            // PR: https://github.com/ggml-org/llama.cpp/pull/19042
+            if (getenv("CUDA_SCALE_LAUNCH_QUEUES") == nullptr) {
+#ifdef _WIN32
+                _putenv_s("CUDA_SCALE_LAUNCH_QUEUES", "4x");
+#else
+                setenv("CUDA_SCALE_LAUNCH_QUEUES", "4x", 0); // don't overwrite if already set
+#endif
-#endif
+#endif // _WIN32
-#endif
+#endif // _WIN32
+
+                GGML_LOG_WARN("\n");
+                GGML_LOG_WARN("================================================================================\n");
+                GGML_LOG_WARN("  CUDA_SCALE_LAUNCH_QUEUES=4x has been enabled\n");
+                GGML_LOG_WARN("  This environment variable improves performance with multiple GPUs\n");
+                GGML_LOG_WARN("================================================================================\n");
+                GGML_LOG_WARN("\n");
+            }
+
             ggml_backend_cuda_reg_context * ctx = new ggml_backend_cuda_reg_context;
             const int min_batch_size = getenv("GGML_OP_OFFLOAD_MIN_BATCH") ? atoi(getenv("GGML_OP_OFFLOAD_MIN_BATCH")) : 32;