Wrap http transport with retry in kube proxy to handle GOAWAY. by creack · Pull Request #57881 · gravitational/teleport

creack · 2025-08-14T02:44:05Z

Adding test is quite tricky, need a Kube server with the --goaway-chance flag but it is limited to 2% max.

Go script to reproduce the issue / confirm the fix

package main

import (
	"context"
	"fmt"
	"log"
	"os"
	"path/filepath"
	"strings"
	"sync"
	"time"

	v1 "k8s.io/api/core/v1"
	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
	"k8s.io/client-go/kubernetes"
	"k8s.io/client-go/tools/clientcmd"
)

func main() {
	ctx := context.Background()

	kubeconfig := filepath.Join(os.Getenv("HOME"), ".kube", "config")
	config, err := clientcmd.BuildConfigFromFlags("", kubeconfig)
	if err != nil {
		log.Fatalf("Failed to build config: %s.", err)
	}

	// Increase limits to avoid rate limiting.
	config.QPS = 100
	config.Burst = 200

	clientset, err := kubernetes.NewForConfig(config)
	if err != nil {
		log.Fatalf("Failed to create clientset: %s.", err)
	}

	const numWorkers = 20
	const opsPerWorker = 50

	var wg sync.WaitGroup
	for workerID := range numWorkers {
		wg.Add(1)
		go func() {
			defer wg.Done()

			for i := range opsPerWorker {
				cm := &v1.ConfigMap{
					ObjectMeta: metav1.ObjectMeta{
						Name:      fmt.Sprintf("test-cm-%d-%d-%d", workerID, i, time.Now().Unix()),
						Namespace: "default",
					},
					Data: map[string]string{
						"key":    fmt.Sprintf("value-%d", i),
						"worker": fmt.Sprintf("%d", workerID),
						"data":   strings.Repeat("x", 1024), // Add some data to make the body larger.
					},
				}

				created, err := clientset.CoreV1().ConfigMaps("default").Create(ctx, cm, metav1.CreateOptions{})
				if err != nil {
					if isGoawayError(err) {
						fmt.Printf("[Worker %d] GOAWAY on CREATE: %s.\n", workerID, err)
					}
					continue
				}

				created.Data["updated"] = "true"
				created.Data["timestamp"] = time.Now().String()
				if _, err := clientset.CoreV1().ConfigMaps("default").Update(ctx, created, metav1.UpdateOptions{}); err != nil {
					if isGoawayError(err) {
						fmt.Printf("[Worker %d] GOAWAY on UPDATE: %s.\n", workerID, err)
					}
				}

				if err := clientset.CoreV1().ConfigMaps("default").Delete(ctx, cm.Name, metav1.DeleteOptions{}); err != nil {
					if isGoawayError(err) {
						fmt.Printf("[Worker %d] GOAWAY on DELETE: %s.\n", workerID, err)
					}
				}

				// No delay - stress the connection.
			}
		}()
	}

	wg.Wait()
}

func isGoawayError(err error) bool {
	if err == nil {
		return false
	}

	errStr := err.Error()
	goawayPatterns := []string{
		"cannot retry err",
		"GOAWAY",
		"http2: Transport received Server's graceful shutdown",
		"after Request.Body was written",
		"graceful shutdown",
	}

	for _, pattern := range goawayPatterns {
		if strings.Contains(errStr, pattern) {
			fmt.Printf("<<< % #v -- %T\n", err, err)
			return true
		}
	}

	return false
}

Kind config with goaway-chance

kind: Cluster
apiVersion: kind.x-k8s.io/v1alpha4
name: teleport-goaway-test
nodes:
- role: control-plane
  kubeadmConfigPatches:
  - |
    kind: ClusterConfiguration
    apiServer:
      extraArgs:
        goaway-chance: "0.02"
        v: "2"

kind create cluster --config goaway.yaml

changelog: Add retry logic in kube proxy to handle EKS goaway chance

lib/kube/proxy/retry_transport.go

…o implement unit test.

lib/kube/proxy/transport_wrapper_test.go

tigrato · 2025-08-18T09:19:42Z