Constrain file sizes #50

ccurme · 2024-03-20T18:38:12Z

Closes #49

eyurtsev · 2024-03-20T19:44:49Z

backend/extraction/parsing.py

    file_data = data.read()
    mimetype = _guess_mimetype(file_data)
    file_name = data.name
+
+    if mimetype == "application/pdf":
+        number_of_pages = _get_pdf_page_count(file_data)


Should we fail or extract from first few pages what do you think is more intuitive?

(This is OK for now obviously)

eyurtsev · 2024-03-20T19:45:50Z

backend/tests/unit_tests/api/test_api_extract.py

@@ -112,7 +112,7 @@ async def test_extract_from_file() -> None:

        # We'll use multi-form data here.
        # Create a named temporary file
-        with tempfile.NamedTemporaryFile(mode="w+t", delete=False) as f:
+        with tempfile.NamedTemporaryFile(mode="w+t", delete=True) as f:


I'd suggest separate unit test since it's getting pretty long on one api test

ccurme added 7 commits March 20, 2024 14:34

add file size constraint

4c8b8b8

add test

13e2596

Merge branch 'main' into cc/file_sizes

d84e606

add page length constraint

dfc2d5a

format

ff66eb7

format

c7ba226

support python 3.8 syntax

010e0ef

ccurme changed the title ~~(WIP) Constrain file sizes~~ Constrain file sizes Mar 20, 2024

ccurme requested review from eyurtsev and bracesproul March 20, 2024 19:32

eyurtsev reviewed Mar 20, 2024

View reviewed changes

eyurtsev approved these changes Mar 20, 2024

View reviewed changes

ccurme added 2 commits March 20, 2024 15:59

break out test

99bbd08

increase page limit

ed57f27

ccurme merged commit fe57149 into main Mar 20, 2024
6 checks passed

ccurme deleted the cc/file_sizes branch March 20, 2024 20:04

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Constrain file sizes #50

Constrain file sizes #50

ccurme commented Mar 20, 2024

eyurtsev Mar 20, 2024

eyurtsev Mar 20, 2024

eyurtsev Mar 20, 2024

Constrain file sizes #50

Constrain file sizes #50

Conversation

ccurme commented Mar 20, 2024

eyurtsev Mar 20, 2024

Choose a reason for hiding this comment

eyurtsev Mar 20, 2024

Choose a reason for hiding this comment

eyurtsev Mar 20, 2024

Choose a reason for hiding this comment