Smart Text Engine. Распознавание полнотекста
Программа Smart Text Engine служит для распознавания неструктурированных текстовых фрагментов на документах и произвольных изображениях.
Текстовый фрагмент — это локальная область изображения, в которой представлен участок текстовой строки. Разбиение фактически напечатанной текстовой строки на фрагменты может быть произвольным.
Государственная регистрация
Программа Smart Text Engine зарегистрирована в реестре программ для ЭВМ. Свидетельство о государственной регистрации программы для ЭВМ № 2024611596. [1]
Программа основана на собственных технологиях поиска текстовых фрагментов, распознавания символов и т.д., разработанных в компании Smart Engines.
Можно задать набор допустимых “языков” исходя из конфигурации системы и на уровне каждого текстового фрагмента получить результат распознавания как в “сыром” формате, так и в отфильтрованном виде по выбранному языку.
Полный список функций программы представлен здесь.
Использование в программе новейших технологий GreenOCR® и искусственного интеллекта собственной разработки обеспечивает высокую уверенность распознавания. В целях повышения качества мы создали сверхкомпактные малобитные модели искусственного интеллекта и непрерывно их совершенствуем, как и сам продукт.
Благодаря модульной структуре программы, библиотека обладает небольшим размером и подходит для встраивания в широкий класс мобильных и серверных систем.
Комплекты поставки
- API на C, С++, C#, Java, Python, PHP, Javascript/webAssembly;
- Примеры использования на языках C/C++/C#/Java/PHP/Python/Javascript;
- Фреймворки: React Native, Flutter.
Результаты представляются в структурированном виде в рамках интерфейса SDK Smart Text Engine. Возможен экспорт в формат .json.
Преимущества Smart Text Engine
Гарантия информационной безопасности клиента
Отсутствует риск утечки данных и коммерческой тайны. Все операции по распознаванию полностью автоматические и исключают человеческий фактор. Распознавание выполняется автономно на мобильных телефонах или в контуре клиента без ручной верификации и какого-либо вмешательства оператора.
Для работы с нашим продуктом не требуется сетевое соединение. Вся обработка ведется в локальной оперативной памяти устройств (100% on-premise).
Качество и скорость распознавания
Программа обеспечивает высокую уверенность распознавания текста документов.
Хороший результат возможен даже при низких разрешениях (от 100 DPI) и при неравномерном освещении, при ярком свете и в темноте, при любом ракурсе съемки.
Широкие возможности интеграции
Поддерживается широкий диапазон операционных систем: ОС Аврора, Android, iOS, MS Windows, Linux, ОС Эльбрус, РЕД ОС, Astra Linux, ОС Атликс, ОС Альт Линукс, х86, x86_64, ARMv7-v8-v9 (AArch32 и AArch64), MIPS (MIPS32 и MIPS64), Elbrus.
Отсутствие жестких требований к входному документу
Высокая устойчивость к качеству исходного изображения.
Распознавание текста выполняется на любом документе независимо от его типа.
Функции программы Smart Text Engine
- Опциональный предварительный поиск и ректификация текста на изображении;
- Распознавание неструктурированных текстовых фрагментов на документах и произвольных изображениях;
- Оптическое распознавание текста документов с произвольным форматом;
- Распознавание инвертированного текста;
- Распознавание полнотекста;
- Распознавание присутствующего текста как на изображении документа целиком, так и на изображениях отдельных фрагментов документов;
- Распознавание машинописных текстовых полей;
- Шрифтонезависимое распознавание печатного текста на русском и английском языках;
- Возможность получения результата распознавания как в “сыром” формате, так и в отфильтрованном виде по выбранному языку на уровне каждого текстового фрагмента. Например, если изображение распознано с указанием алфавита из символов языков “рус + анг + цифры”, то результат распознавания каждого фрагмента можно получить и “как есть”, и для каждого отдельного языка: “рус”, “анг”, “цифры”;
- Предоставление координат текстовых объектов на исходном изображении;
- Оценка уверенности распознавания на уровне символов, слов или строк;
- Распознавание текста без использования ПЗУ — без сохранения временных и промежуточных данных на ПЗУ;
- Распознавание информации без обращения к внешним по отношению к устройству ресурсам (серверы приложений, онлайн-сервисы и прочее);
- Использование 8-ми и 4-х битных глубоких нейросетевых архитектур для распознавания текстовых и графических элементов;
- Возможность контролировать количество используемых вычислительных потоков.
Изображение может обрабатываться в трех режимах:
- line — режим локальной зоны. Предполагает, что на изображении присутствует только один текстовый фрагмент.
- page — режим страницы. Предполагает предварительный поиск и исправление прямоугольника страницы документа.
- standard — стандартный режим. Предполагает, что текст может располагаться на изображении произвольным образом.
По умолчанию включается стандартный режим (standard).
Свидетельство о государственной регистрации программы для ЭВМ № 2024611596. Зарегистрировано в Реестре программ для ЭВМ. Включена в Единый реестр российских программ для электронных вычислительных машин и баз данных (запись в реестре №926023 от 28.12.2024) https://reestr.digital.gov.ru/search/?q=2024611596. ↩︎