BenjaminBraunDev
diff --git a/‎cmd/epp/runner/runner.go‎
Lines changed: 0 additions & 2 deletions b/‎cmd/epp/runner/runner.go‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎conformance/testing-epp/sheduler_test.go‎ renamed to ‎conformance/testing-epp/scheduler_test.go‎ b/‎conformance/testing-epp/sheduler_test.go‎ renamed to ‎conformance/testing-epp/scheduler_test.go‎
diff --git a/‎pkg/bbr/handlers/server.go‎
Lines changed: 1 addition & 1 deletion b/‎pkg/bbr/handlers/server.go‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎pkg/epp/backend/metrics/metrics_state.go‎
Lines changed: 2 additions & 2 deletions b/‎pkg/epp/backend/metrics/metrics_state.go‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎pkg/epp/backend/metrics/types.go‎
Lines changed: 1 addition & 1 deletion b/‎pkg/epp/backend/metrics/types.go‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎pkg/epp/handlers/response.go‎
Lines changed: 4 additions & 15 deletions b/‎pkg/epp/handlers/response.go‎
Lines changed: 4 additions & 15 deletions
diff --git a/‎pkg/epp/handlers/response_test.go‎
Lines changed: 1 addition & 1 deletion b/‎pkg/epp/handlers/response_test.go‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎pkg/epp/handlers/server.go‎
Lines changed: 70 additions & 70 deletions b/‎pkg/epp/handlers/server.go‎
Lines changed: 70 additions & 70 deletions
@@ -50,7 +50,6 @@ import (
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/saturationdetector"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/framework"
-	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/framework/plugins/filter"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/framework/plugins/multi/prefix"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/framework/plugins/picker"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/framework/plugins/profile"
@@ -321,7 +320,6 @@ func (r *Runner) initializeScheduler(datastore datastore.Datastore) (*scheduling
 		kvCacheScorerWeight := envutil.GetEnvInt("KV_CACHE_SCORE_WEIGHT", scorer.DefaultKVCacheScorerWeight, setupLog)
 
 		schedulerProfile := framework.NewSchedulerProfile().
-			WithFilters(filter.NewSubsetFilter()).
 			WithScorers(framework.NewWeightedScorer(scorer.NewQueueScorer(), queueScorerWeight),
 				framework.NewWeightedScorer(scorer.NewKVCacheScorer(), kvCacheScorerWeight)).
 			WithPicker(picker.NewMaxScorePicker())
 
@@ -118,7 +118,7 @@ type streamedBody struct {
 func (s *Server) processRequestBody(ctx context.Context, body *extProcPb.HttpBody, streamedBody *streamedBody, logger logr.Logger) ([]*extProcPb.ProcessingResponse, error) {
 	loggerVerbose := logger.V(logutil.VERBOSE)
 
-	var requestBody map[string]interface{}
+	var requestBody map[string]any
 	if s.streaming {
 		streamedBody.body = append(streamedBody.body, body.Body...)
 		// In the stream case, we can receive multiple request bodies.
 
@@ -21,8 +21,8 @@ import (
 	"time"
 )
 
-// newMetricsState initializes a new MetricsState and returns its pointer.
-func newMetricsState() *MetricsState {
+// NewMetricsState initializes a new MetricsState and returns its pointer.
+func NewMetricsState() *MetricsState {
 	return &MetricsState{
 		ActiveModels:  make(map[string]int),
 		WaitingModels: make(map[string]int),
 
@@ -51,7 +51,7 @@ func (f *PodMetricsFactory) NewPodMetrics(parentCtx context.Context, in *corev1.
 		logger:    log.FromContext(parentCtx).WithValues("pod", pod.NamespacedName),
 	}
 	pm.pod.Store(pod)
-	pm.metrics.Store(newMetricsState())
+	pm.metrics.Store(NewMetricsState())
 
 	pm.startRefreshLoop(parentCtx)
 	return pm
 
@@ -37,19 +37,15 @@ const (
 )
 
 // HandleResponseBody always returns the requestContext even in the error case, as the request context is used in error handling.
-func (s *StreamingServer) HandleResponseBody(
-	ctx context.Context,
-	reqCtx *RequestContext,
-	response map[string]interface{},
-) (*RequestContext, error) {
+func (s *StreamingServer) HandleResponseBody(ctx context.Context, reqCtx *RequestContext, response map[string]any) (*RequestContext, error) {
 	logger := log.FromContext(ctx)
 	responseBytes, err := json.Marshal(response)
 	if err != nil {
 		logger.V(logutil.DEFAULT).Error(err, "error marshalling responseBody")
 		return reqCtx, err
 	}
 	if response["usage"] != nil {
-		usg := response["usage"].(map[string]interface{})
+		usg := response["usage"].(map[string]any)
 		usage := Usage{
 			PromptTokens:     int(usg["prompt_tokens"].(float64)),
 			CompletionTokens: int(usg["completion_tokens"].(float64)),
@@ -71,11 +67,7 @@ func (s *StreamingServer) HandleResponseBody(
 }
 
 // The function is to handle streaming response if the modelServer is streaming.
-func (s *StreamingServer) HandleResponseBodyModelStreaming(
-	ctx context.Context,
-	reqCtx *RequestContext,
-	responseText string,
-) {
+func (s *StreamingServer) HandleResponseBodyModelStreaming(ctx context.Context, reqCtx *RequestContext, responseText string) {
 	if strings.Contains(responseText, streamingEndMsg) {
 		resp := parseRespForUsage(ctx, responseText)
 		reqCtx.Usage = resp.Usage
@@ -280,10 +272,7 @@ func (s *StreamingServer) generateResponseTrailers(reqCtx *RequestContext) []*co
 //
 // If include_usage is not included in the request, `data: [DONE]` is returned separately, which
 // indicates end of streaming.
-func parseRespForUsage(
-	ctx context.Context,
-	responseText string,
-) ResponseBody {
+func parseRespForUsage(ctx context.Context, responseText string) ResponseBody {
 	response := ResponseBody{}
 	logger := log.FromContext(ctx)
 
 
@@ -86,7 +86,7 @@ func TestHandleResponseBody(t *testing.T) {
 			if reqCtx == nil {
 				reqCtx = &RequestContext{}
 			}
-			var responseMap map[string]interface{}
+			var responseMap map[string]any
 			marshalErr := json.Unmarshal(test.body, &responseMap)
 			if marshalErr != nil {
 				t.Error(marshalErr, "Error unmarshaling request body")
 
@@ -80,7 +80,6 @@ type StreamingServer struct {
 	director                                 Director
 }
 
-
 // RequestContext stores context information during the life time of an HTTP request.
 // TODO: The requestContext is gathering a ton of fields. A future refactor needs to tease these fields apart.
 // Specifically, there are fields related to the ext-proc protocol, and then fields related to the lifecycle of the request.
@@ -92,33 +91,33 @@ type RequestContext struct {
 	ResolvedTargetModel       string
 	RequestReceivedTimestamp  time.Time
 	ResponseCompleteTimestamp time.Time
-	FirstTokenTimestamp     time.Time
-	LastTokenTimestamp	  time.Time
+	FirstTokenTimestamp       time.Time
+	LastTokenTimestamp        time.Time
 	RequestSize               int
 	Usage                     Usage
 	ResponseSize              int
 	ResponseComplete          bool
 	ResponseStatusCode        string
 	RequestRunning            bool
 	Request                   *Request
-	Prompt 				  string
-	GeneratedTokenCount int
+	Prompt                    string
+	GeneratedTokenCount       int
 
-	LastSeenMetrics *backendmetrics.MetricsState
-	SchedulingResult 	  *schedulingtypes.SchedulingResult
+	LastSeenMetrics  *backendmetrics.MetricsState
+	SchedulingResult *schedulingtypes.SchedulingResult
 
 	SchedulingRequest *schedulingtypes.LLMRequest
 
 	RequestState         StreamRequestState
 	ModelServerStreaming bool
 
-	TTFT float64
+	TTFT          float64
 	PredictedTTFT float64
 
 	PredictedTPOTObservations []float64
-	TPOTObservations	[]float64
-	AvgTPOT float64
-	AvgPredictedTPOT float64
+	TPOTObservations          []float64
+	AvgTPOT                   float64
+	AvgPredictedTPOT          float64
 
 	TokenSampler *requtil.TokenSampler
 
@@ -133,17 +132,14 @@ type RequestContext struct {
 	respTrailerResp *extProcPb.ProcessingResponse
 }
 
-
-
 type Request struct {
 	Headers  map[string]string
-	Body     map[string]interface{}
+	Body     map[string]any
 	Metadata map[string]any
 }
 type Response struct {
-	Headers map[string]string
+	Headers  map[string]string
 	Trailers map[string]string
-	
 }
 type StreamRequestState int
 
@@ -170,17 +166,17 @@ func (s *StreamingServer) Process(srv extProcPb.ExternalProcessor_ProcessServer)
 		RequestState: RequestReceived,
 		Request: &Request{
 			Headers:  make(map[string]string),
-			Body:     make(map[string]interface{}),
+			Body:     make(map[string]any),
 			Metadata: make(map[string]any),
 		},
 		Response: &Response{
-			Headers: make(map[string]string),
+			Headers:  make(map[string]string),
 			Trailers: make(map[string]string),
 		},
 	}
 
 	var body []byte
-	var responseBody map[string]interface{}
+	var responseBody map[string]any
 
 	// Create error handling var as each request should only report once for
 	// error metrics. This doesn't cover the error "Cannot receive stream request" because
@@ -302,49 +298,44 @@ func (s *StreamingServer) Process(srv extProcPb.ExternalProcessor_ProcessServer)
 					metrics.RecordResponseSizes(reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.ResponseSize)
 
 					if s.director.IsPredictorAvailable() {
-					// var sumActual, sumPred float64
-        			// for _, actual := range reqCtx.TPOTObservations {
-            		// 	sumActual += actual
-            			
-        			// }
-					// for _, prediction := range reqCtx.PredictedTPOTObservations {
-            		// 	sumPred += prediction
-            			
-        			// }
-				
-       				// avgActual := sumActual / float64(len(reqCtx.TPOTObservations))
-        			// avgPred := sumPred / float64(len(reqCtx.PredictedTPOTObservations))
-        			
-					// reqCtx.AvgTPOT = avgActual
-					// reqCtx.AvgPredictedTPOT = avgPred
-					
-					
-        			// Compute MAPE for TTFT
-        			mapeTTFT := 0.0
-        			if reqCtx.TTFT > 0 {
-            			mapeTTFT = math.Abs((reqCtx.TTFT-reqCtx.PredictedTTFT)/reqCtx.TTFT) * 100
-						logger.V(logutil.DEBUG).Info("Averages calculated", "avgActualTTFT", reqCtx.TTFT, "avgPredictedTTFT", reqCtx.PredictedTTFT)
-						logger.V(logutil.DEBUG).Info("MAPE TTFT computed", "mapeTTFT%", mapeTTFT)
-						metrics.RecordRequestTTFT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.TTFT/1000)
-						metrics.RecordRequestPredictedTTFT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.PredictedTTFT/1000)
-						metrics.RecordRequestTTFTPredictionMape(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, mapeTTFT)
-
-        				}
-        			
-
-					mapeTPOT := 0.0
-					if reqCtx.AvgTPOT > 0 {
-						mapeTPOT = math.Abs((reqCtx.AvgTPOT-reqCtx.AvgPredictedTPOT)/reqCtx.AvgTPOT) * 100
-						logger.V(logutil.DEBUG).Info("Averages calculated", "avgActualTPOT", reqCtx.AvgTPOT, "avgPredictedTPOT", reqCtx.AvgPredictedTPOT)
-						logger.V(logutil.DEBUG).Info("MAPE TPOT computed", "mapeTPOT%", mapeTPOT)
-						metrics.RecordRequestTPOT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.AvgTPOT/1000)
-						metrics.RecordRequestPredictedTPOT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.AvgPredictedTPOT/1000)
-						metrics.RecordRequestTPOTPredictionMape(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, mapeTPOT)
+						// var sumActual, sumPred float64
+						// for _, actual := range reqCtx.TPOTObservations {
+						// 	sumActual += actual
+
+						// }
+						// for _, prediction := range reqCtx.PredictedTPOTObservations {
+						// 	sumPred += prediction
+
+						// }
+
+						// avgActual := sumActual / float64(len(reqCtx.TPOTObservations))
+						// avgPred := sumPred / float64(len(reqCtx.PredictedTPOTObservations))
+
+						// reqCtx.AvgTPOT = avgActual
+						// reqCtx.AvgPredictedTPOT = avgPred
+
+						// Compute MAPE for TTFT
+						mapeTTFT := 0.0
+						if reqCtx.TTFT > 0 {
+							mapeTTFT = math.Abs((reqCtx.TTFT-reqCtx.PredictedTTFT)/reqCtx.TTFT) * 100
+							logger.V(logutil.DEBUG).Info("Averages calculated", "avgActualTTFT", reqCtx.TTFT, "avgPredictedTTFT", reqCtx.PredictedTTFT)
+							logger.V(logutil.DEBUG).Info("MAPE TTFT computed", "mapeTTFT%", mapeTTFT)
+							metrics.RecordRequestTTFT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.TTFT/1000)
+							metrics.RecordRequestPredictedTTFT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.PredictedTTFT/1000)
+							metrics.RecordRequestTTFTPredictionMape(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, mapeTTFT)
+
+						}
+
+						mapeTPOT := 0.0
+						if reqCtx.AvgTPOT > 0 {
+							mapeTPOT = math.Abs((reqCtx.AvgTPOT-reqCtx.AvgPredictedTPOT)/reqCtx.AvgTPOT) * 100
+							logger.V(logutil.DEBUG).Info("Averages calculated", "avgActualTPOT", reqCtx.AvgTPOT, "avgPredictedTPOT", reqCtx.AvgPredictedTPOT)
+							logger.V(logutil.DEBUG).Info("MAPE TPOT computed", "mapeTPOT%", mapeTPOT)
+							metrics.RecordRequestTPOT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.AvgTPOT/1000)
+							metrics.RecordRequestPredictedTPOT(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, reqCtx.AvgPredictedTPOT/1000)
+							metrics.RecordRequestTPOTPredictionMape(ctx, reqCtx.Model, reqCtx.ResolvedTargetModel, mapeTPOT)
+						}
 					}
-				}
-					 
-					
-					
 
 				}
 
@@ -380,21 +371,21 @@ func (s *StreamingServer) Process(srv extProcPb.ExternalProcessor_ProcessServer)
 			}
 		case *extProcPb.ProcessingRequest_ResponseTrailers:
 			logger.V(logutil.DEFAULT).Info("Processing response trailers", "trailers", v.ResponseTrailers.Trailers)
-			if reqCtx.ModelServerStreaming{
-				
+			if reqCtx.ModelServerStreaming {
+
 				var trailerErr error
 				reqCtx, trailerErr = s.HandleResponseTrailers(ctx, reqCtx)
 				if trailerErr != nil {
-					                    logger.V(logutil.DEFAULT).Error(trailerErr, "Failed to process response trailers")
-					                }
+					logger.V(logutil.DEFAULT).Error(trailerErr, "Failed to process response trailers")
+				}
 				reqCtx.respTrailerResp = s.generateResponseTrailerResponse(reqCtx)
-			} 
+			}
 		}
 
 		// Handle the err and fire an immediate response.
 		if err != nil {
 			logger.V(logutil.DEFAULT).Error(err, "Failed to process request", "request", req)
-			resp, err := BuildErrResponse(err)
+			resp, err := buildErrResponse(err)
 			if err != nil {
 				return err
 			}
@@ -475,9 +466,7 @@ func (r *RequestContext) updateStateAndSendIfNeeded(srv extProcPb.ExternalProces
 	return nil
 }
 
-
-
-func BuildErrResponse(err error) (*extProcPb.ProcessingResponse, error) {
+func buildErrResponse(err error) (*extProcPb.ProcessingResponse, error) {
 	var resp *extProcPb.ProcessingResponse
 
 	switch errutil.CanonicalCode(err) {
@@ -504,6 +493,17 @@ func BuildErrResponse(err error) (*extProcPb.ProcessingResponse, error) {
 				},
 			},
 		}
+	// This code can be returned by the director when there are no candidate pods for the request scheduling.
+	case errutil.ServiceUnavailable:
+		resp = &extProcPb.ProcessingResponse{
+			Response: &extProcPb.ProcessingResponse_ImmediateResponse{
+				ImmediateResponse: &extProcPb.ImmediateResponse{
+					Status: &envoyTypePb.HttpStatus{
+						Code: envoyTypePb.StatusCode_ServiceUnavailable,
+					},
+				},
+			},
+		}
 	// This code can be returned when users provide invalid json request.
 	case errutil.BadRequest:
 		resp = &extProcPb.ProcessingResponse{
Original file line number	Diff line number	Diff line change
`@@ -51,7 +51,7 @@ func (f PodMetricsFactory) NewPodMetrics(parentCtx context.Context, in corev1.`
`51`	`51`	`logger: log.FromContext(parentCtx).WithValues("pod", pod.NamespacedName),`
`52`	`52`	`}`
`53`	`53`	`pm.pod.Store(pod)`
`54`		`- pm.metrics.Store(newMetricsState())`
	`54`	`+ pm.metrics.Store(NewMetricsState())`
`55`	`55`
`56`	`56`	`pm.startRefreshLoop(parentCtx)`
`57`	`57`	`return pm`
Original file line number	Diff line number	Diff line change
`@@ -86,7 +86,7 @@ func TestHandleResponseBody(t *testing.T) {`
`86`	`86`	`if reqCtx == nil {`
`87`	`87`	`reqCtx = &RequestContext{}`
`88`	`88`	`}`
`89`		`- var responseMap map[string]interface{}`
	`89`	`+ var responseMap map[string]any`
`90`	`90`	`marshalErr := json.Unmarshal(test.body, &responseMap)`
`91`	`91`	`if marshalErr != nil {`
`92`	`92`	`t.Error(marshalErr, "Error unmarshaling request body")`