Настройка модуля OCR

Для активации распознавания текста на изображениях и документах включите политику Распознавание текста.

  1. Перейдите во вкладку Политики.

  2. Откройте папку Политики.

  3. В папке Анализ контента активируйте движок Распознавание текста. Откроется окно настройки политики.

  4. Установите флажок Политика активна.

../_images/1.png ../_images/cases_55.png
  1. Выберите опции применения политики:

    • Применить и продолжить запустит распознавание событий, которые произойдут после планового запуска политик;

    • Применить к новым событиям запустит анализ новых событий;

    • Применить ко всем событиям перестроит сервер для анализа и старых, и новых событий.

  2. Выберите сервер для обработки изображений:

Встроенный OCR

Обрабатывает изображения на сервере StaffCop.
Включает опции:

  • Распознавание перевернутых изображений: распознает текст в перевернутых изображениях. Увеличивает время распознавания.
  • Языки: русский, английский, казахский. Чем больше выбрано языков, тем больше нагрузка и время распознавания.

Сервер распознавания

При выборе этого варианта StaffCop отправит изображения на отдельный сервер, поэтому нагрузка будет равномерна распределена между двумя серверами. Сервер распознает паспорта, печати и лица. Требует дополнительных ресурсов, так как обрабатывает изображения отдельно от основного сервера.

Выберите модуль сервера распознавания:

  • Tesseract. Простая, гибкая и бесплатная библиотека для базового OCR, которую можно использовать по умолчанию.
  • Content AI ABBYY. Платный движок, который требует дополнительных настроек на сервере и платной лицензии с компонентом OCR. Обеспечивает высокую точность, лучше распознает перевернутые изображения.

Чтобы активировать опцию Сервер распознавания, установите сервер распознавания графических объектов.

  1. Подключите Облако ABBYY. Если у вас есть аккаунт в ABBYY для распознавания документов, вы можете его подключить. После этого для распознавания будут применяться алгоритмы ABBYY.

../_images/cases_58.png
  1. Настройте формат файлов для распознавания. По умолчанию включено распознавание application/pdf. Вы можете включить распознавание файлов в форматах image/jpeg, image/png или других типов документов, например снимков экрана.

Перейдите во вкладку Фильтры, затем в ФайлыТип контента и выберите в поле поиска формат файлов:

../_images/cases_57.png

Примечание

При распознавании не перегружайте сервер. Распознавание изображения составляет около 15 с, ряд изображений в очереди снизит скорость обработки.