coderabbit

thoraxe · thoraxe · commit 12becc5ccdea · 2025-08-18T10:46:50.000-04:00
diff --git a/src/app/endpoints/query.py b/src/app/endpoints/query.py
@@ -7,7 +7,6 @@
 from pathlib import Path
 from typing import Annotated, Any, cast
 
-import pydantic
 
 from llama_stack_client import APIConnectionError
 from llama_stack_client import AsyncLlamaStackClient  # type: ignore
@@ -43,103 +42,15 @@
 )
 from utils.mcp_headers import mcp_headers_dependency, handle_mcp_headers_with_toolgroups
 from utils.suid import get_suid
-from utils.metadata import parse_knowledge_search_metadata
+from utils.metadata import (
+    extract_referenced_documents_from_steps,
+)
 
 logger = logging.getLogger("app.endpoints.handlers")
 router = APIRouter(tags=["query"])
 auth_dependency = get_auth_dependency()
 
 
-def _process_knowledge_search_content(tool_response: Any) -> dict[str, dict[str, Any]]:
-    """Process knowledge search tool response content for metadata.
-
-    Args:
-        tool_response: Tool response object containing content to parse
-
-    Returns:
-        Dictionary mapping document_id to metadata dict
-    """
-    metadata_map: dict[str, dict[str, Any]] = {}
-
-    # Guard against missing tool_response or content
-    if not tool_response:
-        return metadata_map
-
-    content = getattr(tool_response, "content", None)
-    if not content:
-        return metadata_map
-
-    # Ensure content is iterable
-    try:
-        iter(content)
-    except TypeError:
-        return metadata_map
-
-    for text_content_item in content:
-        # Skip items that lack a non-empty "text" attribute
-        text = getattr(text_content_item, "text", None)
-        if not text:
-            continue
-
-        try:
-            parsed_metadata = parse_knowledge_search_metadata(text)
-            metadata_map.update(parsed_metadata)
-        except ValueError:
-            logger.exception(
-                "An exception was thrown in processing metadata from text: %s",
-                text[:200] + "..." if len(text) > 200 else text,
-            )
-
-    return metadata_map
-
-
-def extract_referenced_documents_from_steps(
-    steps: list[Any],
-) -> list[ReferencedDocument]:
-    """Extract referenced documents from tool execution steps.
-
-    Args:
-        steps: List of response steps from the agent
-
-    Returns:
-        List of referenced documents with doc_url and doc_title
-    """
-    metadata_map: dict[str, dict[str, Any]] = {}
-
-    for step in steps:
-        if getattr(step, "step_type", "") != "tool_execution" or not hasattr(
-            step, "tool_responses"
-        ):
-            continue
-
-        for tool_response in getattr(step, "tool_responses", []) or []:
-            if getattr(
-                tool_response, "tool_name", ""
-            ) != "knowledge_search" or not getattr(tool_response, "content", []):
-                continue
-
-            response_metadata = _process_knowledge_search_content(tool_response)
-            metadata_map.update(response_metadata)
-
-    # Extract referenced documents from metadata with error handling
-    referenced_documents = []
-    for v in metadata_map.values():
-        if "docs_url" in v and "title" in v:
-            try:
-                doc = ReferencedDocument(doc_url=v["docs_url"], doc_title=v["title"])
-                referenced_documents.append(doc)
-            except (pydantic.ValidationError, ValueError) as e:
-                logger.warning(
-                    "Skipping invalid referenced document with docs_url='%s', title='%s': %s",
-                    v.get("docs_url", "<missing>"),
-                    v.get("title", "<missing>"),
-                    str(e),
-                )
-                continue
-
-    return referenced_documents
-
-
 query_response: dict[int | str, dict[str, Any]] = {
     200: {
         "conversation_id": "123e4567-e89b-12d3-a456-426614174000",
@@ -516,8 +427,9 @@ async def retrieve_response(  # pylint: disable=too-many-locals,too-many-branche
         mcp_headers (dict[str, dict[str, str]], optional): Headers for multi-component processing.
 
     Returns:
-        tuple[str, str]: A tuple containing the LLM or agent's response content
-        and the conversation ID.
+        tuple[str, str, list[ReferencedDocument]]: A tuple containing the response
+        content, the conversation ID, and the list of referenced documents parsed
+        from tool execution steps.
     """
     available_input_shields = [
         shield.identifier
@@ -615,12 +527,12 @@ async def retrieve_response(  # pylint: disable=too-many-locals,too-many-branche
     # Safely guard access to output_message and content
     output_message = getattr(response_obj, "output_message", None)
     if output_message and getattr(output_message, "content", None) is not None:
-        content_str = str(output_message.content)
+        response_text = str(output_message.content)
     else:
-        content_str = ""
+        response_text = ""
 
     return (
-        content_str,
+        response_text,
         conversation_id,
         referenced_documents,
     )
diff --git a/src/app/endpoints/streaming_query.py b/src/app/endpoints/streaming_query.py
@@ -452,17 +452,13 @@ def _handle_tool_execution_event(
                                 summary = summary[:newline_pos]
                         try:
                             parsed_metadata = parse_knowledge_search_metadata(
-                                text_content_item.text
+                                text_content_item.text, strict=False
                             )
                             metadata_map.update(parsed_metadata)
-                        except ValueError:
+                        except ValueError as e:
                             logger.exception(
-                                "An exception was thrown in processing metadata from text: %s",
-                                (
-                                    text_content_item.text[:200] + "..."
-                                    if len(text_content_item.text) > 200
-                                    else text_content_item.text
-                                ),
+                                "Error processing metadata from text; position=%s",
+                                getattr(e, "position", "unknown"),
                             )
 
                 yield format_stream_data(
diff --git a/src/utils/metadata.py b/src/utils/metadata.py
@@ -1,9 +1,17 @@
 """Shared utilities for parsing metadata from knowledge search responses."""
 
 import ast
+import json
+import logging
 import re
 from typing import Any
 
+import pydantic
+
+from models.responses import ReferencedDocument
+
+logger = logging.getLogger(__name__)
+
 
 # Case-insensitive pattern to find "Metadata:" labels
 METADATA_LABEL_PATTERN = re.compile(r"^\s*metadata:\s*", re.MULTILINE | re.IGNORECASE)
@@ -94,3 +102,104 @@ def parse_knowledge_search_metadata(
             continue
 
     return metadata_map
+
+
+def process_knowledge_search_content(tool_response: Any) -> dict[str, dict[str, Any]]:
+    """Process knowledge search tool response content for metadata.
+
+    Args:
+        tool_response: Tool response object containing content to parse
+
+    Returns:
+        Dictionary mapping document_id to metadata dict
+    """
+    metadata_map: dict[str, dict[str, Any]] = {}
+
+    # Guard against missing tool_response or content
+    if not tool_response:
+        return metadata_map
+
+    content = getattr(tool_response, "content", None)
+    if not content:
+        return metadata_map
+
+    # Handle string content by attempting JSON parsing
+    if isinstance(content, str):
+        try:
+            content = json.loads(content, strict=False)
+        except (json.JSONDecodeError, TypeError):
+            # If JSON parsing fails or content is still a string, return empty
+            if isinstance(content, str):
+                return metadata_map
+
+    # Ensure content is iterable (but not a string)
+    if isinstance(content, str):
+        return metadata_map
+    try:
+        iter(content)
+    except TypeError:
+        return metadata_map
+
+    for text_content_item in content:
+        # Skip items that lack a non-empty "text" attribute
+        text = getattr(text_content_item, "text", None)
+        if not text:
+            continue
+
+        try:
+            parsed_metadata = parse_knowledge_search_metadata(text, strict=False)
+            metadata_map.update(parsed_metadata)
+        except ValueError as e:
+            logger.exception(
+                "Error processing metadata from text; position=%s",
+                getattr(e, "position", "unknown"),
+            )
+
+    return metadata_map
+
+
+def extract_referenced_documents_from_steps(
+    steps: list[Any],
+) -> list[ReferencedDocument]:
+    """Extract referenced documents from tool execution steps.
+
+    Args:
+        steps: List of response steps from the agent
+
+    Returns:
+        List of referenced documents with doc_url and doc_title, sorted deterministically
+    """
+    metadata_map: dict[str, dict[str, Any]] = {}
+
+    for step in steps:
+        if getattr(step, "step_type", "") != "tool_execution" or not hasattr(
+            step, "tool_responses"
+        ):
+            continue
+
+        for tool_response in getattr(step, "tool_responses", []) or []:
+            if getattr(
+                tool_response, "tool_name", ""
+            ) != "knowledge_search" or not getattr(tool_response, "content", []):
+                continue
+
+            response_metadata = process_knowledge_search_content(tool_response)
+            metadata_map.update(response_metadata)
+
+    # Extract referenced documents from metadata with error handling
+    referenced_documents = []
+    for v in metadata_map.values():
+        if "docs_url" in v and "title" in v:
+            try:
+                doc = ReferencedDocument(doc_url=v["docs_url"], doc_title=v["title"])
+                referenced_documents.append(doc)
+            except (pydantic.ValidationError, ValueError) as e:
+                logger.warning(
+                    "Skipping invalid referenced document with docs_url='%s', title='%s': %s",
+                    v.get("docs_url", "<missing>"),
+                    v.get("title", "<missing>"),
+                    str(e),
+                )
+                continue
+
+    return sorted(referenced_documents, key=lambda d: (d.doc_title, str(d.doc_url)))
diff --git a/tests/unit/app/endpoints/test_query.py b/tests/unit/app/endpoints/test_query.py