Renamed summary to name, for understandability

jamesbraza · jamesbraza · commit ddc4a0670825 · 2025-10-14T14:39:52.000-07:00
diff --git a/packages/paper-qa-pymupdf/src/paperqa_pymupdf/reader.py b/packages/paper-qa-pymupdf/src/paperqa_pymupdf/reader.py
@@ -177,6 +177,6 @@ def parse_pdf_to_pages(
         parsing_libraries=[f"{pymupdf.__name__} ({pymupdf.__version__})"],
         total_parsed_text_length=total_length,
         count_parsed_media=count_media,
-        summary=f"pdf|block={use_block_parsing}{multimodal_string if parse_media else ''}",
+        name=f"pdf|block={use_block_parsing}{multimodal_string if parse_media else ''}",
     )
     return ParsedText(content=content, metadata=metadata)
diff --git a/packages/paper-qa-pymupdf/tests/test_paperqa_pymupdf.py b/packages/paper-qa-pymupdf/tests/test_paperqa_pymupdf.py
@@ -124,8 +124,8 @@ async def test_parse_pdf_to_pages() -> None:
     for pt in (parsed_text, parsed_text_full_page, parsed_text_no_media):
         (parsing_library,) = pt.metadata.parsing_libraries
         assert pymupdf.__name__ in parsing_library
-        assert pt.metadata.summary
-        assert "pdf" in pt.metadata.summary
+        assert pt.metadata.name
+        assert "pdf" in pt.metadata.name
 
     # Check commonalities across all modes
     assert (
diff --git a/packages/paper-qa-pypdf/src/paperqa_pypdf/reader.py b/packages/paper-qa-pypdf/src/paperqa_pypdf/reader.py
@@ -105,6 +105,6 @@ def parse_pdf_to_pages(
         ],
         total_parsed_text_length=total_length,
         count_parsed_media=count_media,
-        summary=f"pdf|{multimodal_string if parse_media else ''}",
+        name=f"pdf|{multimodal_string if parse_media else ''}",
     )
     return ParsedText(content=pages, metadata=metadata)
diff --git a/packages/paper-qa-pypdf/tests/test_paperqa_pypdf.py b/packages/paper-qa-pypdf/tests/test_paperqa_pypdf.py
@@ -106,8 +106,8 @@ async def test_parse_pdf_to_pages() -> None:
     for pt in (parsed_text_full_page, parsed_text_no_media):
         (parsing_library,) = pt.metadata.parsing_libraries
         assert pypdf.__name__ in parsing_library
-        assert pt.metadata.summary
-        assert "pdf" in pt.metadata.summary
+        assert pt.metadata.name
+        assert "pdf" in pt.metadata.name
 
     # Check commonalities across all modes
     assert len(parsed_text_full_page.content) == len(
diff --git a/src/paperqa/docs.py b/src/paperqa/docs.py
@@ -393,7 +393,7 @@ async def aadd(  # noqa: PLR0912
             include_metadata=True,
         )
         # loose check to see if document was loaded
-        if metadata.summary != "image" and (
+        if metadata.name != "image" and (
             not texts
             or len(texts[0].text) < 10  # noqa: PLR2004
             or (
diff --git a/src/paperqa/readers.py b/src/paperqa/readers.py
@@ -51,7 +51,7 @@ async def parse_image(
         paperqa_version=pqa_version,
         total_parsed_text_length=0,  # No text, just an image
         count_parsed_media=1,
-        summary="image",
+        name="image",
     )
     return ParsedText(content={"1": ("", [parsed_media])}, metadata=metadata)
 
@@ -162,7 +162,7 @@ def parse_text(
             parsing_libraries=parsing_libraries,
             paperqa_version=pqa_version,
             total_parsed_text_length=total_length,
-            summary=f"{parse_summary}|split-lines={split_lines}",
+            name=f"{parse_summary}|split-lines={split_lines}",
         ),
     )
 
@@ -385,7 +385,7 @@ async def read_doc(  # noqa: PLR0912
         chunk_metadata = ChunkMetadata(
             size=0,
             overlap=0,
-            summary=f"paper-qa={pqa_version}|algorithm=none|reduction=cl100k_base",
+            name=f"paper-qa={pqa_version}|algorithm=none|reduction=cl100k_base",
         )
     elif str_path.endswith(".pdf"):
         chunked_text = chunk_pdf(
@@ -394,7 +394,7 @@ async def read_doc(  # noqa: PLR0912
         chunk_metadata = ChunkMetadata(
             size=chunk_chars,
             overlap=overlap,
-            summary=(
+            name=(
                 f"paper-qa={pqa_version}|algorithm=overlap-pdf"
                 f"|size={chunk_chars}|overlap={overlap}"
             ),
@@ -406,7 +406,7 @@ async def read_doc(  # noqa: PLR0912
         chunk_metadata = ChunkMetadata(
             size=0,
             overlap=0,
-            summary=f"paper-qa={pqa_version}|algorithm=none",
+            name=f"paper-qa={pqa_version}|algorithm=none",
         )
     elif str_path.endswith((".txt", ".html")):
         chunked_text = chunk_text(
@@ -415,7 +415,7 @@ async def read_doc(  # noqa: PLR0912
         chunk_metadata = ChunkMetadata(
             size=chunk_chars,
             overlap=overlap,
-            summary=(
+            name=(
                 f"paper-qa={pqa_version}|algorithm=overlap-text|reduction=cl100k_base"
                 f"|size={chunk_chars}|overlap={overlap}"
             ),
@@ -427,7 +427,7 @@ async def read_doc(  # noqa: PLR0912
         chunk_metadata = ChunkMetadata(
             size=chunk_chars,
             overlap=overlap,
-            summary=(
+            name=(
                 f"paper-qa={pqa_version}|algorithm=overlap-code|reduction=cl100k_base"
                 f"|size={chunk_chars}|overlap={overlap}"
             ),
diff --git a/src/paperqa/types.py b/src/paperqa/types.py
@@ -461,7 +461,7 @@ class ChunkMetadata(BaseModel):
 
     size: int = Field(description="Chunk size (chars), or 0 for no chunking.")
     overlap: int = Field(description="Chunk overlap (chars), or 0 for no overlap.")
-    summary: str | None = Field(
+    name: str | None = Field(
         default=None,
         description=(
             "Optional string summarizing the chunking parameters, embodying a hash."
@@ -481,7 +481,7 @@ class ParsedMetadata(BaseModel):
     )
     total_parsed_text_length: int
     count_parsed_media: int = Field(default=0, ge=0)
-    summary: str | None = Field(
+    name: str | None = Field(
         default=None,
         description=(
             "Optional string summarizing the parsing parameters, embodying a hash."
diff --git a/tests/test_paperqa.py b/tests/test_paperqa.py
@@ -1307,8 +1307,8 @@ async def test_parser_only_reader(pdf_parser: PDFParserFn, stub_data_dir: Path)
         parse_pdf=pdf_parser,
         full_page=True,  # Simple to support across many parsers
     )
-    assert parsed_text.metadata.summary
-    assert "pdf" in parsed_text.metadata.summary
+    assert parsed_text.metadata.name
+    assert "pdf" in parsed_text.metadata.name
     assert parsed_text.metadata.chunk_metadata is None
     assert isinstance(parsed_text.content, dict)
     num_chars = 0
@@ -1339,11 +1339,11 @@ async def test_chunk_metadata_reader(
         include_metadata=True,
         parse_pdf=pdf_parser,
     )
-    assert metadata.summary
-    assert "pdf" in metadata.summary
+    assert metadata.name
+    assert "pdf" in metadata.name
     assert isinstance(metadata.chunk_metadata, ChunkMetadata)
-    assert metadata.chunk_metadata.summary
-    assert "overlap-pdf" in metadata.chunk_metadata.summary
+    assert metadata.chunk_metadata.name
+    assert "overlap-pdf" in metadata.chunk_metadata.name
     assert metadata.chunk_metadata.overlap == 100
     assert metadata.chunk_metadata.size == 3000
     assert len(chunk_text) > 2, "Expected multiple chunks, for meaningful assertions"
@@ -1380,11 +1380,11 @@ async def test_chunk_metadata_reader(
         include_metadata=True,
     )
     # NOTE the use of tiktoken changes the actual char and overlap counts
-    assert metadata.summary
-    assert "html" in metadata.summary
+    assert metadata.name
+    assert "html" in metadata.name
     assert isinstance(metadata.chunk_metadata, ChunkMetadata)
-    assert metadata.chunk_metadata.summary
-    assert "overlap-text" in metadata.chunk_metadata.summary
+    assert metadata.chunk_metadata.name
+    assert "overlap-text" in metadata.chunk_metadata.name
     assert metadata.chunk_metadata.overlap == 100
     assert metadata.chunk_metadata.size == 3000
     assert all(
@@ -1404,11 +1404,11 @@ async def test_chunk_metadata_reader(
             doc=Doc(docname="foo", citation="Foo et al, 2002", dockey="1"),
             include_metadata=True,
         )
-        assert metadata.summary
-        assert "txt" in metadata.summary
+        assert metadata.name
+        assert "txt" in metadata.name
         assert isinstance(metadata.chunk_metadata, ChunkMetadata)
-        assert metadata.chunk_metadata.summary
-        assert "overlap-code" in metadata.chunk_metadata.summary
+        assert metadata.chunk_metadata.name
+        assert "overlap-code" in metadata.chunk_metadata.name
         assert metadata.chunk_metadata.overlap == 100
         assert metadata.chunk_metadata.size == 3000
         assert all(
@@ -1483,8 +1483,8 @@ async def test_read_doc_images_metadata(stub_data_dir: Path) -> None:
     image_id = parsed_image.to_id()
     assert image_id.version == 4, "Expected a uuid4-compatible ID"
     assert image_id == UUID("f6426bc3-382a-45a4-8677-08744044864f")
-    assert parsed_text.metadata.summary
-    assert "image" in parsed_text.metadata.summary
+    assert parsed_text.metadata.name
+    assert "image" in parsed_text.metadata.name
     assert parsed_text.metadata.count_parsed_media == 1
     assert parsed_text.metadata.total_parsed_text_length == 0
     assert parsed_text.metadata.chunk_metadata is None
@@ -1502,15 +1502,15 @@ async def test_read_doc_images_metadata(stub_data_dir: Path) -> None:
     texts, metadata = texts_with_metadata
     assert len(texts) == 1
     assert texts[0] == text
-    assert metadata.summary
-    assert "image" in metadata.summary
+    assert metadata.name
+    assert "image" in metadata.name
     assert metadata.count_parsed_media == 1
     assert metadata.total_parsed_text_length == 0
     assert metadata.chunk_metadata is not None
     assert not metadata.chunk_metadata.size
     assert not metadata.chunk_metadata.overlap
-    assert metadata.chunk_metadata.summary
-    assert "algorithm=none" in metadata.chunk_metadata.summary
+    assert metadata.chunk_metadata.name
+    assert "algorithm=none" in metadata.chunk_metadata.name
 
 
 @pytest.mark.asyncio

Original file line number	Diff line number	Diff line change
`@@ -177,6 +177,6 @@ def parse_pdf_to_pages(`
`177`	`177`	`parsing_libraries=[f"{pymupdf.__name__} ({pymupdf.__version__})"],`
`178`	`178`	`total_parsed_text_length=total_length,`
`179`	`179`	`count_parsed_media=count_media,`
`180`		`- summary=f"pdf\|block={use_block_parsing}{multimodal_string if parse_media else ''}",`
	`180`	`+ name=f"pdf\|block={use_block_parsing}{multimodal_string if parse_media else ''}",`
`181`	`181`	`)`
`182`	`182`	`return ParsedText(content=content, metadata=metadata)`
Original file line number	Diff line number	Diff line change
`@@ -105,6 +105,6 @@ def parse_pdf_to_pages(`
`105`	`105`	`],`
`106`	`106`	`total_parsed_text_length=total_length,`
`107`	`107`	`count_parsed_media=count_media,`
`108`		`- summary=f"pdf\|{multimodal_string if parse_media else ''}",`
	`108`	`+ name=f"pdf\|{multimodal_string if parse_media else ''}",`
`109`	`109`	`)`
`110`	`110`	`return ParsedText(content=pages, metadata=metadata)`
Original file line number	Diff line number	Diff line change
`@@ -393,7 +393,7 @@ async def aadd( # noqa: PLR0912`
`393`	`393`	`include_metadata=True,`
`394`	`394`	`)`
`395`	`395`	`# loose check to see if document was loaded`
`396`		`- if metadata.summary != "image" and (`
	`396`	`+ if metadata.name != "image" and (`
`397`	`397`	`not texts`
`398`	`398`	`or len(texts[0].text) < 10 # noqa: PLR2004`
`399`	`399`	`or (`