Max length not setting #41

jabberjabberjabber · 2024-12-16T00:06:56Z

I am getting stuck at 500,000 chars no matter what I set the max length to:

    def _get_content(self, content):            
        """ Read text from a file to chunk.
        """
        extractor = Extractor()
        extractor.set_extract_string_max_length(1000)
        
        result, metadata = extractor.extract_file_to_string(content)    
        print(len(result))
        print(metadata)
        return result, metadata

Result:

500000
{'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.csv.TextAndCSVParser'], 'Content-Encoding': ['UTF-8'], 'resourceName': ['pg2000.txt'], 'X-TIKA:Parsed-By-Full-Set': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.csv.TextAndCSVParser'], 'Content-Type': ['text/plain; charset=UTF-8'], 'Content-Length': ['2184315']}

Any idea what is going on?

The text was updated successfully, but these errors were encountered:

jabberjabberjabber · 2024-12-16T03:32:52Z

I figured it out.

The set_extract_string_max_length returns a new Extractor with the updated setting.

        extractor = extractor.set_extract_string_max_length(1000)

You should change the readme.

jabberjabberjabber mentioned this issue Dec 16, 2024

Bug Report: Text Truncation in EPUB Files Larger Than 500KB #39

Closed

jabberjabberjabber closed this as completed Dec 18, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Max length not setting #41

Max length not setting #41

jabberjabberjabber commented Dec 16, 2024

jabberjabberjabber commented Dec 16, 2024

Max length not setting #41

Max length not setting #41

Comments

jabberjabberjabber commented Dec 16, 2024

jabberjabberjabber commented Dec 16, 2024