Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Некорректное объединение таблиц при наличии текста между ними в MultiPageTableExtractor #520

Open
faust58 opened this issue Mar 19, 2025 · 0 comments

Comments

@faust58
Copy link

faust58 commented Mar 19, 2025

Добрый день!

Описание проблемы:
Обнаружено некорректное объединение таблиц методом __handle_multipage_table в классе MultiPageTableExtractor. В текущей реализации метод объединяет таблицы, если выполнены следующие условия:

  1. Таблицы имеют одинаковую ширину.
  2. Количество колонок совпадает.
  3. Ширина первой и последней колонок совпадают.

Однако, даже при выполнении этих условий могут возникать случаи, когда объединение является избыточным и некорректным. Например, в прикреплённом документе между таблицами присутствует текстовый слой (более 1 строки текста), что явно свидетельствует о раздельном характере информации в этих таблицах. В результате таблицы, имеющие разные названия и несущие различную смысловую нагрузку, ошибочно объединяются.

Предлагаемое решение:
Добавить дополнительную проверку на наличие текстового слоя между таблицами:

  • Если между таблицами есть текстовый слой, содержащий более одной строки, объединение таблиц не производится.

Дополнительный контекст:
Это скорее частный случай, и данное issue создано преимущественно для информирования о такой возможности и улучшения логики работы объединения таблиц.

Спасибо!

test2.pdf

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant