Настройка модуля OCR¶

Для активации распознавания текста на изображениях и документах включите политику Распознавание текста.

Перейдите во вкладку Политики.
Откройте папку Политики.
В папке Анализ контента активируйте движок Распознавание текста. Откроется окно настройки политики.
Установите флажок Политика активна.

Выберите опции применения политики:
- Применить и продолжить запустит распознавание событий, которые произойдут после планового запуска политик;
- Применить к новым событиям запустит анализ новых событий;
- Применить ко всем событиям перестроит сервер для анализа и старых, и новых событий.
Выберите сервер для обработки изображений:

Встроенный OCR

Обрабатывает изображения на сервере Staffcop.
Включает опции:

Распознавание перевернутых изображений: распознает текст в перевернутых изображениях. Увеличивает время распознавания.
Языки: русский, английский. Чем больше выбрано языков, тем больше нагрузка и время распознавания.

Сервер распознавания

При выборе этого варианта Staffcop отправит изображения на отдельный сервер, поэтому нагрузка будет равномерна распределена между двумя серверами. Сервер распознает паспорта, печати и лица. Требует дополнительных ресурсов, так как обрабатывает изображения отдельно от основного сервера.

Выберите модуль сервера распознавания:

Tesseract. Простая, гибкая и бесплатная библиотека для базового OCR, используйте ее по умолчанию.
Content AI ABBYY. Платный движок, который требует дополнительных настроек на сервере и платной лицензии с компонентом OCR. Обеспечивает высокую точность, лучше распознает перевернутые изображения.

Чтобы активировать опцию Сервер распознавания, установите сервер распознавания графических объектов.

Подключите Облако ABBYY. Если у вас есть аккаунт в ABBYY для распознавания документов, вы можете его подключить. После этого для распознавания будут применяться алгоритмы ABBYY.

Настройте формат файлов для распознавания. По умолчанию включено распознавание application/pdf. Вы можете включить распознавание файлов в форматах image/jpeg, image/png или других типов документов, например снимков экрана.

Перейдите во вкладку Фильтры, затем в Файлы → Тип контента и выберите в поле поиска формат файлов:

Примечание

При распознавании не перегружайте сервер. Распознавание изображения составляет около 15 с, ряд изображений в очереди снизит скорость обработки.