Skip to content

Smart Text Engine. Распознавание полнотекста

Программа Smart Text Engine служит для распознавания неструктурированных текстовых фрагментов на документах и произвольных изображениях.

Текстовый фрагмент — это локальная область изображения, в которой представлен участок текстовой строки. Разбиение фактически напечатанной текстовой строки на фрагменты может быть произвольным.

Государственная регистрация

Программа Smart Text Engine зарегистрирована в реестре программ для ЭВМ. Свидетельство о государственной регистрации программы для ЭВМ № 2024611596. [1]

Программа основана на собственных технологиях поиска текстовых фрагментов, распознавания символов и т.д., разработанных в компании Smart Engines.

Можно задать набор допустимых “языков” исходя из конфигурации системы и на уровне каждого текстового фрагмента получить результат распознавания как в “сыром” формате, так и в отфильтрованном виде по выбранному языку.

Полный список функций программы представлен здесь.

Использование в программе новейших технологий GreenOCR® и искусственного интеллекта собственной разработки обеспечивает высокую уверенность распознавания. В целях повышения качества мы создали сверхкомпактные малобитные модели искусственного интеллекта и непрерывно их совершенствуем, как и сам продукт.

Благодаря модульной структуре программы, библиотека обладает небольшим размером и подходит для встраивания в широкий класс мобильных и серверных систем.

Комплекты поставки

  • API на C, С++, C#, Java, Python, PHP, Javascript/webAssembly;
  • Примеры использования на языках C/C++/C#/Java/PHP/Python/Javascript;
  • Фреймворки: React Native, Flutter.

Результаты представляются в структурированном виде в рамках интерфейса SDK Smart Text Engine. Возможен экспорт в формат .json.

Преимущества Smart Text Engine

Гарантия информационной безопасности клиента

Отсутствует риск утечки данных и коммерческой тайны. Все операции по распознаванию полностью автоматические и исключают человеческий фактор. Распознавание выполняется автономно на мобильных телефонах или в контуре клиента без ручной верификации и какого-либо вмешательства оператора.

Для работы с нашим продуктом не требуется сетевое соединение. Вся обработка ведется в локальной оперативной памяти устройств (100% on-premise).

Качество и скорость распознавания

Программа обеспечивает высокую уверенность распознавания текста документов.

Хороший результат возможен даже при низких разрешениях (от 100 DPI) и при неравномерном освещении, при ярком свете и в темноте, при любом ракурсе съемки.

Широкие возможности интеграции

Поддерживается широкий диапазон операционных систем: ОС Аврора, Android, iOS, MS Windows, Linux, ОС Эльбрус, РЕД ОС, Astra Linux, ОС Атликс, ОС Альт Линукс, х86, x86_64, ARMv7-v8-v9 (AArch32 и AArch64), MIPS (MIPS32 и MIPS64), Elbrus.

Отсутствие жестких требований к входному документу

Высокая устойчивость к качеству исходного изображения.

Распознавание текста выполняется на любом документе независимо от его типа.

Функции программы Smart Text Engine

  • Опциональный предварительный поиск и ректификация текста на изображении;
  • Распознавание неструктурированных текстовых фрагментов на документах и произвольных изображениях;
  • Оптическое распознавание текста документов с произвольным форматом;
  • Распознавание инвертированного текста;
  • Распознавание полнотекста;
  • Распознавание присутствующего текста как на изображении документа целиком, так и на изображениях отдельных фрагментов документов;
  • Распознавание машинописных текстовых полей;
  • Шрифтонезависимое распознавание печатного текста на русском и английском языках;
  • Возможность получения результата распознавания как в “сыром” формате, так и в отфильтрованном виде по выбранному языку на уровне каждого текстового фрагмента. Например, если изображение распознано с указанием алфавита из символов языков “рус + анг + цифры”, то результат распознавания каждого фрагмента можно получить и “как есть”, и для каждого отдельного языка: “рус”, “анг”, “цифры”;
  • Предоставление координат текстовых объектов на исходном изображении;
  • Оценка уверенности распознавания на уровне символов, слов или строк;
  • Распознавание текста без использования ПЗУ — без сохранения временных и промежуточных данных на ПЗУ;
  • Распознавание информации без обращения к внешним по отношению к устройству ресурсам (серверы приложений, онлайн-сервисы и прочее);
  • Использование 8-ми и 4-х битных глубоких нейросетевых архитектур для распознавания текстовых и графических элементов;
  • Возможность контролировать количество используемых вычислительных потоков.

Изображение может обрабатываться в трех режимах:

  • line — режим локальной зоны. Предполагает, что на изображении присутствует только один текстовый фрагмент.
  • page — режим страницы. Предполагает предварительный поиск и исправление прямоугольника страницы документа.
  • standard — стандартный режим. Предполагает, что текст может располагаться на изображении произвольным образом.

По умолчанию включается стандартный режим (standard).


  1. Свидетельство о государственной регистрации программы для ЭВМ № 2024611596. Зарегистрировано в Реестре программ для ЭВМ. Включена в Единый реестр российских программ для электронных вычислительных машин и баз данных (запись в реестре №926023 от 28.12.2024) https://reestr.digital.gov.ru/search/?q=2024611596. ↩︎