fix: handle detailed token shapes in normalizeUsage for service tier pricing

hannesrudolph · hannesrudolph · commit ca50ad606e56 · 2025-09-03T18:12:36.000-06:00
- Extract cached tokens from input_tokens_details/prompt_tokens_details
- Derive total input from details when main totals are missing
- Add support for reasoning tokens from output_tokens_details
- Fix fallback chain for cache read tokens to properly use detailed shapes
diff --git a/src/api/providers/openai-native.ts b/src/api/providers/openai-native.ts
@@ -69,10 +69,24 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 	private normalizeUsage(usage: any, model: OpenAiNativeModel): ApiStreamUsageChunk | undefined {
 		if (!usage) return undefined
 
-		const totalInputTokens = usage.input_tokens ?? usage.prompt_tokens ?? 0
+		// Extract cached tokens from detailed shapes if available
+		const cachedFromDetails =
+			usage.input_tokens_details?.cached_tokens ?? usage.prompt_tokens_details?.cached_tokens ?? 0
+
+		// Derive total input from details if main totals are missing
+		const derivedInput = usage.input_tokens_details
+			? (usage.input_tokens_details.cached_tokens ?? 0) + (usage.input_tokens_details.cache_miss_tokens ?? 0)
+			: 0
+
+		const totalInputTokens = usage.input_tokens ?? usage.prompt_tokens ?? derivedInput ?? 0
 		const totalOutputTokens = usage.output_tokens ?? usage.completion_tokens ?? 0
 		const cacheWriteTokens = usage.cache_creation_input_tokens ?? usage.cache_write_tokens ?? 0
-		const cacheReadTokens = usage.cache_read_input_tokens ?? usage.cache_read_tokens ?? usage.cached_tokens ?? 0
+		// Use detailed shapes for cache reads with proper fallback chain
+		const cacheReadTokens =
+			usage.cache_read_input_tokens ?? usage.cache_read_tokens ?? usage.cached_tokens ?? cachedFromDetails
+
+		// Extract reasoning tokens from output details if available
+		const reasoningTokens = usage.output_tokens_details?.reasoning_tokens
 
 		// Resolve effective tier: prefer actual tier from response; otherwise requested tier
 		const effectiveTier =
@@ -87,14 +101,21 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			cacheReadTokens || 0,
 		)
 
-		return {
+		const result: ApiStreamUsageChunk = {
 			type: "usage",
 			inputTokens: totalInputTokens,
 			outputTokens: totalOutputTokens,
 			cacheWriteTokens,
 			cacheReadTokens,
 			totalCost,
 		}
+
+		// Only include reasoningTokens if present
+		if (reasoningTokens !== undefined) {
+			;(result as any).reasoningTokens = reasoningTokens
+		}
+
+		return result
 	}
 
 	private resolveResponseId(responseId: string | undefined): void {