Сегодня PDF — это один из наиболее популярных форматов распространения печатно-ориентированных документов в электронной среде. PDF-документы часто являются неаннотированными: страницы представлены только низкоуровневыми инструкциями рендеринга текста и графики, они не сопровождаются аннотацией своих структурных компонентов (заголовков, абзацев, таблиц и пр.). Автоматическое восстановление такой
... [Show full abstract] аннотации может обеспечить доступность структурных компонентов. Последнее возможно при решении ряда задач, одной из которых является распознавание таблиц неаннотированных PDF-документов: обнаружение границ их строк, столбцов и ячеек. В работе предложен метод распознавания таблиц неаннотированных PDF-документов. В отличие от имеющихся аналогов впервые означенная задача решается на базе использования PDF-специфичных свойств: порядка вывода текста, позиций перемещения пера и пр. Это позволило адаптировать к поставленной задаче некоторые известные подходы и методы, изначально ориентированные на растровые изображения и неформатированный текст, включая “кластеризацию слов”, обнаружение строк rows first, сегментацию пробельного пространства и анализ компонентов связности. Представленные результаты оценки производительности показывают эффективность решений, реализующих данный метод.
Nowadays, PDF is one of the most popular formats for distributing print-oriented documents in the electronic environment. PDF documents are often untagged, i.e. pages are represented only by low-level instructions for rendering text and graphics and are not accompanied by annotations of their structural components (headings, paragraphs, tables, etc.). Automatic recovering for such annotations can ensure the accessibility of structural components. The latter is possible as a result of solving a number of tasks, one of which is recognizing tables in untagged PDF documents: detecting the boundaries of their rows, columns, and cells. This paper proposes a method for recognizing tables in untagged PDF documents. Unlike existing analogues, it is originally proposed to solve the stated task based on the use of PDF-specific features such as text output order, pen movement positions, etc. This proposal allowed adapting some known approaches and methods to the declared task, initially oriented towards raster images and unformatted text, including “word clustering”, “rows first” detection, whitespace segmentation, and connected component analysis. The presented performance evaluation results demonstrate the effectiveness of solutions implementing this method. The presented results of the performance evaluation demonstrate the efficiency of the solutions implemented based on the proposed method. Quantitative comparison with analogues indicates their compliance with the current level of technology development in the area under consideration. At the same time, qualitative comparison reveals the following advantages over analogues. The implementation of the proposed table recognition method does not require preliminary parameter adjustment and supervised learning. However, if ready-to-use neural network models are available, they can replace rule-based table detection algorithms. At the same time, the quality of the final results can be improved by applying filtering of candidate cases.