Автоматизация обработки документов

Web-приложение для извлечения текста и определения физической структуры из изображений и PDF-документов. Используйте графовых нейронных сетей для автоматического выделения заголовков, списков, таблиц и текстовых блоков.

Запустить демо сейчас

Попробуйте в нашем демо прямо сейчас

📤

Загрузите файл

Перетащите PDF или изображение (JPG, PNG) в интерфейс. Система автоматически проверит формат и размер.

⚙️

Запустите обработку

Включите опцию «Нейро-сегментация», чтобы восстановить структуру документа, или получите чистый текст.

📥

Скачайте результат

Получите готовые данные: структурированный JSON для разработчиков или удобный DOCX-файл для работы.

Как выглядит демо-версия

Наше демо-приложение имеет простой и интуитивно понятный интерфейс. Вы можете загрузить документ, выбрать параметры обработки и сразу же получить результат в удобном формате. Весь процесс занимает всего несколько кликов!

Перейти к демо-версии
Интерфейс демо-версии приложения

Интерфейс демо-приложения с загруженным документом и результатами обработки

Оценка качества работы алгоритма

Результаты тестирования*

88%
F1@IoURow[0.5]
Хорошее качество
68%
F1@IoURow[0.95]
Высшее качество

* тестирование проводилось на 200 PDF документах из набора PubLayNet

Как мы оцениваем точность распознавания

Для оценки качества выделения блоков документа мы используем метрику F1@IoURow, которая учитывает:

  • Совпадение предсказанных блоков с эталонными разметками
  • Отношение верно определенных строк к общему числу рассматриваемых строк
  • Гармоническое среднее между точностью (precision) и полнотой (recall)

Блок считается правильно определенным, если значение метрики превышает 0.5 (хорошее качество) или 0.95 (высшее качество соответствия).

Гибкое API для интеграций

Пример запроса


{
    "file": string($binary)
    "process": '{"only_text": false}'
}
            

Пример ответа


{
    "document": "string",
    "pages": [
        {
            "number": "integer",
            "width": "integer",
            "height": "integer",
            "regions": [
                {
                    "x_top_left": "integer",
                    "y_top_left": "integer",
                    "width": "integer",
                    "height": "integer",
                    "text": "string",
                }
            ],
            "tables": [...],
            "images": [...],
            "words": [...]
        }
    ]
}

            

Готовы автоматизировать извлечение текста?

Мы готовы разработать специально для Вас API

Наши научные публикации по обработки документов

Международная конференция IVMEM 2024

D. Kopylov and A. Mikhaylov, How To Classify Document Segments Using Graph Based Representation and Neural Networks, 2024 Ivannikov Memorial Workshop (IVMEM), Velikiy Novgorod, Russian Federation, 2024, pp. 36-41

DOI: 10.1109/IVMEM63006.2024.10659393

Ляпуновские чтения 2024

Копылов, Д. Е. Графовые нейронные сети в задаче восстановления макета документов / Д. Е. Копылов, А. А. Михайлов // Ляпуновские чтения - 2024 : Материалы 40-й международной конференции, Иркутск, 02–06 декабря 2024 года. – Иркутск: Институт динамики систем и теории управления им. В.М. Матросова СО РАН, 2024. – С. 115-116.

Труды ИСП РАН 2023

Копылов, Д. Е. Классификация текста растрового документа по признаку начертания / Д. Е. Копылов, А. А. Михайлов // Труды Института системного программирования РАН. – 2023. – Т. 35, № 6. – С. 157-166.

DOI: 10.15514/ISPRAS-2023-35(6)-9