Skip to content

Smart Document Engine. Распознавание документов разных типов

Программа Smart Document Engine служит для распознавания широкого диапазона документов. Это личные документы, справки, выписки и так далее на более чем 100 языках мира (Полный список).

Государственная регистрация

Программа Smart Document Engine зарегистрирована в реестре программ для ЭВМ. Свидетельство о государственной регистрации программы для ЭВМ № 2020616760. [1]

Программа работает в реальных условиях и в реальном времени с фото и сканами.

Возможны поиск, верификация и классификация всех документов, представленных на одном изображении, и многостраничных документов. А также автоматический поиск, выделение и распознавание деталей документов: таблиц и списков, реквизитов.

Подробное описание функций программы Smart Document Engine можно найти здесь.

Программа устойчива к качеству исходного изображения. Даже если документы сложены или изогнуты, то они автоматически разглаживаются.

Кроме того, программа позволяет пользователю самостоятельно настроить формы для распознавания документов с помощью специального приложения — Document Studio Designer.

Использование в программе новейших технологий GreenOCR® и искусственного интеллекта собственной разработки обеспечивает высокую уверенность распознавания. В целях повышения качества мы создали сверхкомпактные малобитные модели искусственного интеллекта и непрерывно их совершенствуем, как и сам продукт.

Благодаря модульной структуре программы, библиотека обладает небольшим размером и подходит для встраивания в широкий класс мобильных и серверных систем.

Комплект поставки

  • API на C, С++, C#, Java, Python, PHP, Javascript/webAssembly;
  • Примеры использования на языках C/C++/C#/Java/PHP/Python/Javascript;
  • Фреймворки: React Native, Flutter;
  • REST API для low-code.

Преимущества Smart Document Engine

Гарантия информационной безопасности клиента

Отсутствует риск утечки данных и коммерческой тайны. Все операции по распознаванию полностью автоматические и исключают человеческий фактор. Распознавание выполняется автономно на мобильных телефонах или в контуре клиента без ручной верификации и какого-либо вмешательства оператора. Для работы с нашим продуктом не требуется сетевое соединение. Вся обработка ведется в локальной оперативной памяти устройств (100% on-premise).

Качество и скорость распознавания

Высокая скорость распознавания: от 1 секунды на страницу на смартфоне до 15 страниц в секунду на сервере. Программа обеспечивает высокую уверенность распознавания документов, координат объектов, поддерживает вырезание полей и документов. Обеспечивает возврат зоны принятия решения для проверок подлинности. Хороший результат возможен даже при низких разрешениях (от 100 DPI) и при неравномерном освещении, при ярком свете и в темноте, при любом ракурсе съемки.

Широкие возможности интеграции

Поддерживается широкий диапазон операционных систем: ОС Аврора, Android, iOS, MS Windows, Linux, ОС Эльбрус, РЕД ОС, Astra Linux, ОС Атликс, ОС Альт Линукс, х86, x86/64, ARMv7-v8-v9 (AArch32 и AArch64), MIPS (MIPS32 и MIPS64), Elbrus.

Универсальность распознаваемых документов

Поддерживается автоматический ввод документов и оперативная настройка новых документов под заказ.
Выполнена бесшовная интеграция со Smart ID Engine для распознавания документов, удостоверяющих личность. Это позволяет работать с документами практически любого типа.

Настройка новых шаблонов

Специальное приложение Document Studio Designer позволяет настроить:

  • распознавание форм с заданной геометрией по единому образцу;
  • распознавание печатных, рукопечатных и рукописных реквизитов;
  • распознавание меток, чекбоксов, штрихкодов;
  • структуру документов;
  • правила форматирования и проверки данных.

Можно создать несколько шаблонов для одного типа страницы.

Для работы с приложением не требуется обладать специальными навыками: все необходимые операции можно выполнять в удобном графическом интерфейсе. Имеется широкая номенклатура настроенных документов и встроенный полнотекстовый OCR для создания клиентских моделей.

Функции программы Smart Document Engine

1. Детектирование и распознавание
  • Распознавание машинописных текстовых полей;
  • Независимое от начертания шрифта распознавание печатного текста;
  • Распознавание рукопечатного текста;
  • Распознавание рукописного текста;
  • Распознавание однострочных и многострочных текстовых полей;
  • Распознавание как всех полей документа, так и части полей из документа, заданных во входных параметрах;
  • Распознавание таблиц;
  • Распознавание меток и чекбоксов;
  • Распознавание 2D и линейных штрихкодов;
  • Распознавание сканов документов;
  • Распознавание фотографий документов;
  • Распознавание цветных (RGB), одноканальных (в градациях серого) изображений;
  • Распознавание при расположении документа под любым углом;
  • Идентификация типа документа по его изображению и распознавание полей идентифицированного типа документа;
  • Распознавание документов без использования ПЗУ (без сохранения временных и промежуточных данных на ПЗУ);
  • Распознавание информации без обращения к внешним по отношению к устройству ресурсам (серверы приложений, онлайн-сервисы и прочее);
  • Детекция и распознавание данных в графических элементах (печати, штампы, логотипы и прочее);
  • Классификация и распознавание жестких форм;
  • Классификация и распознавание гибких форм;
  • Распознавание многостраничных документов.
2. Контроль, проверка, анализ
  • Анализ многостраничных документов;
  • Анализ документов произвольного вида;
  • Контроль заполнения документа (понимание абзацев, анализ ключевых зон документа);
  • Контроль отсутствия помарок, исправлений, и прочих пометок;
  • Проверка наличия и распознавание рукописных пометок и подписей;
  • Проверка наличия ключевых слов и словосочетаний;
  • Контроль цветности документа;
  • Анализ атрибутов текстовых полей (наличие засечек, курсив, оценки однородности и монотонности);
  • Контроль присутствия необходимых графических элементов (проверка присутствия необходимых элементов);
  • Контроль присутствия подписей на документе.
3. Технологические возможности
  • Выделение предопределенных графических полей документа;
  • Выделение нестандартных графических областей документа;
  • Возврат зон документа и отдельных реквизитов для каждого входного изображения;
  • Возможность контролировать количество используемых вычислительных потоков;
  • Поддержка широкого диапазона допустимого физического разрешения распознаваемых документов от 100 до 600 точек/дюйм и выше;
  • Использование 8-ми и 4-х битных глубоких нейросетевых архитектур для распознавания текстовых и графических элементов.

Поддерживаемые форматы файлов

Для работы распознавания системе необходимо передать изображение специального класса se.common.image. Создать его можно из следующих форматов:

Поддерживаемые форматы:

  • jpeg, png;
  • tiff (✔️TIFF_LZW, ✔️TIFF_PACKBITS,✔️TIFF_CCITT);
  • base64 (форматы из пунктов выше);
  • файловый буфер с предварительным указанием цветовой схемы, ширины\высоты\количества каналов.

Максимальный допустимый размер изображения по умолчанию — 15000x15000px. Предельный размер изображения может быть увеличен пользователем.

Работа с HEIC

Работа с HEIC в мобильных SDK не отличается от работы с другими форматами изображений. Чтение HEIC осуществляется системными средствами.

В серверных SDK необходимо самостоятельно открыть HEIC формат сторонними средствами и конвертировать либо в один из поддерживаемых нами форматов, либо передать непосредственно сырые пиксели в виде RGB буфера (рекомендуется).

Распознаваемые документы

Smart Document Engine поддерживает распознавание следующих типов документов:

  • Справка о доходах физического лица (2-НДФЛ);
  • Акт 1С;
  • Акт на передачу права;
  • Акт сверки;
  • Банковский ордер;
  • Бухгалтерский баланс;
  • Выписка из ЕГРИП (Единого государственного реестра индивидуальных предпринимателей);
  • Выписка из ЕГРЮЛ (Единого государственного реестра юридических лиц);
  • ИНН юридического лица;
  • Инкассовое поручение;
  • КСФ (Корректировочный счет-фактура);
  • Накладная ТОРГ-12;
  • Накладная ТОРГ-13;
  • Платежное поручение;
  • Платежное требование;
  • Платежный ордер;
  • Справка КС-3;
  • Справка о постановке на учет (снятии с учета) физического лица в качестве налогоплательщика налога на профессиональный доход;
  • Счет 1С;
  • Счет-фактура;
  • ТТН (Товарно-транспортная накладная);
  • УКД (Универсальный корректировочный документ);
  • УПД (Универсальный передаточный документ).

Полный список поддерживаемых типов документов представлен отдельным файлом.

Языковая поддержка Smart Document Engine

  • Кириллица
    (Русский, Абхазский, Белорусский, Болгарский, Казахский, Киргизский, Монгольский, Осетинский, Сербский, Таджикский, Узбекский, Украинский, Татарский).

  • Латиница
    (Английский, Азербайджанский, Аймара, Албанский, Африкаанс, Берберский, Боснийский, Венгерский, Волеаи, Гаитянский креольский, Датский, Зулу, Индонезийский, Ирландский, Исландский, Испанский, Итальянский, Кантонский, Кастильский, Каталонский, Кечуа, Коморский, Коса, Латышский, Литовский, Люксембургский, Македонский, Малайский, Мальтийский, Мандарин, Маори, Молдавский, Науруанский, Ндау, Ндебеле, Немецкий, Нидерландский, Норвежский, Палауcкий, Польский, Португальский, Руанда, Румынский, Рунди, Свази, Северный сото, Сейшельский креольский, Сесото, Словацкий, Словенский, Сомалийский, Суахили, Тамазайт, Тетум, Ток-писин, Тонга, Тсвана, Тсонга, Турецкий, Туркменский, Фиджи хинди, Фиджийский, Филиппинский, Финский, Французский, Хорватский, Чева, Чешский, Чибарве, Чичева, Шангани, Шведский, Шона, Эстонский, Южный ндебеле).

  • Языки с нелатинскими алфавитами
    Китайский (классический, 20 000 иероглифов), Японский (Хирагана, Катакана и Кандзи), Корейский (Хангыль), Сингальский, Греческий, Грузинский, Армянский, Иврит, Арабский, Фарси, Урду, Тамильский, Тайский, Бенгальский.


  1. Свидетельство о государственной регистрации программы для ЭВМ № 2020616760. Зарегистрировано в Реестре программ для ЭВМ. Включена в Единый реестр российских программ для электронных вычислительных машин и баз данных (запись в реестре №9617 от 15.03.2021 произведена на основании приказа Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации от 15.03.2021 №151) https://reestr.digital.gov.ru/search/?q=2020616760. ↩︎