Web-приложение для извлечения текста и определения физической структуры из изображений и PDF-документов. Используйте графовых нейронных сетей для автоматического выделения заголовков, списков, таблиц и текстовых блоков.
Запустить демо сейчасПеретащите PDF или изображение (JPG, PNG) в интерфейс. Система автоматически проверит формат и размер.
Включите опцию «Нейро-сегментация», чтобы восстановить структуру документа, или получите чистый текст.
Получите готовые данные: структурированный JSON для разработчиков или удобный DOCX-файл для работы.
Наше демо-приложение имеет простой и интуитивно понятный интерфейс. Вы можете загрузить документ, выбрать параметры обработки и сразу же получить результат в удобном формате. Весь процесс занимает всего несколько кликов!
Перейти к демо-версииИнтерфейс демо-приложения с загруженным документом и результатами обработки
* тестирование проводилось на 200 PDF документах из набора PubLayNet
Для оценки качества выделения блоков документа мы используем метрику F1@IoURow, которая учитывает:
Блок считается правильно определенным, если значение метрики превышает 0.5 (хорошее качество) или 0.95 (высшее качество соответствия).
{ "file": string($binary) "process": '{"only_text": false}' }
{ "document": "string", "pages": [ { "number": "integer", "width": "integer", "height": "integer", "regions": [ { "x_top_left": "integer", "y_top_left": "integer", "width": "integer", "height": "integer", "text": "string", } ], "tables": [...], "images": [...], "words": [...] } ] }
Мы готовы разработать специально для Вас API
D. Kopylov and A. Mikhaylov, How To Classify Document Segments Using Graph Based Representation and Neural Networks, 2024 Ivannikov Memorial Workshop (IVMEM), Velikiy Novgorod, Russian Federation, 2024, pp. 36-41
DOI: 10.1109/IVMEM63006.2024.10659393Копылов, Д. Е. Графовые нейронные сети в задаче восстановления макета документов / Д. Е. Копылов, А. А. Михайлов // Ляпуновские чтения - 2024 : Материалы 40-й международной конференции, Иркутск, 02–06 декабря 2024 года. – Иркутск: Институт динамики систем и теории управления им. В.М. Матросова СО РАН, 2024. – С. 115-116.
Копылов, Д. Е. Классификация текста растрового документа по признаку начертания / Д. Е. Копылов, А. А. Михайлов // Труды Института системного программирования РАН. – 2023. – Т. 35, № 6. – С. 157-166.
DOI: 10.15514/ISPRAS-2023-35(6)-9