Speech-to-text (Распознавание речи)

Записи звука с компьютеров сотрудников можно преобразовать в текст с помощью облачного модуля T-Bank VoiceKit.

Внимание

Для работы модуля серверу Staffcop требуется доступ к адресам voicekit.tinkoff.ru и api.tinkoff.ai. Адреса находятся на территории РФ.

VoiceKit разработан компанией T-Bank. Он не использует зарубежные технологии и не передает данные за пределы собственного дата-центра, где происходит обработка аудио.

Модуль поддерживает многопоточную работу и может одновременно обрабатывать несколько аудиофайлов.

Оплата облачного модуля принимается через личный кабинет на сайте software.tbank.ru.

Примечание

При распознавании аудиозапись может быть записана как диалог — речь двух собеседников. Для этого в разделе конфигурации Запись звука включите опции Запись с микрофона и Запись звука колонок.

Пример распознанного диалога, где с1 и с2 — первый и второй собеседники:

../_images/speech_example.png

Настройка и активация модуля

Чтобы включить модуль распознавания:

  1. Перейдите на сайт software.tbank.ru и войдите в личный кабинет.

    ../_images/speech_1.png
  2. Нажмите на Создать ключ и заполните поля с названием и описанием ключа.

    ../_images/speech_2.png
  3. Нажмите Сгенерировать ключ и скопируйте полученные API Key и Secret Key.

    ../_images/speech_3.png

    Предупреждение

    Сохраните ключи на компьютере — Secret Key станет недоступен, как только вы уйдете со страницы создания ключа.

  4. Откройте веб-интерфейс Staffcop и перейдите в раздел Панель управленияПараметры сервера.

  5. В строке Распознавание голоса укажите:

    • Разрешить конфигурацию по-умолчанию — позволяет использовать распознавание в конфигурации агентов по умолчанию;

    • ДвижокTinkoff VoiceKit;

    • API Key и Secret Key — значения, которые получены при генерации ключа в T-Bank VoiceKit;

    • опционально: Принудительно — включите опцию, чтобы запустить распознавание всех записей, начиная с самой первой.

    ../_images/speech_4.png
  6. Нажмите кнопку Сохранить. Теперь распознавание речи включено и готово к работе.

Распознавание аудиозаписей

Для распознавания речи в текст доступны два инструмента:

  • распознавание одной записи,

  • политика распознавания речи.

Единоразовое распознавание

Кликните на кнопку Распознавание под событием с типом Запись звука в Линзе событий. Система переведет речь в текст.

Не требует отдельной политики. Предназначено для демонстрации технологии и проверки работы.

../_images/speech_5.png

Политика «Распознавание речи»

Для фонового распознавания речи из поступающих событий настройте политику Распознавание речи.

Политика позволяет:

  • непрерывно распознавать текст,

  • накапливать текстовую базу данных,

  • анализировать данные с помощью встроенных политик распознавания, включая словари, регулярные выражения и политики безопасности.

Чтобы включить политику распознавания:

  1. Перейдите во вкладке Политики в папку ПолитикиАнализ контента и откройте Распознавание речи.

    ../_images/speech_7.png
  2. В окне политики включите флаг Политика активна.

  3. Перейдите во вкладку Фильтр и при необходимости добавьте ограничения.

    Примечание

    Укажите конкретные компьютеры или пользователей, чтобы ускорить процесс распознавания.

  4. Перейдите на вкладку Распознавание речи и выберите ДвижокTinkoff VoiceKit,

  5. Заполните поля API Key и Secret Key,

    ../_images/speech_8.png
  6. Сохраните изменения.

Дополнительно

Ограничения по размеру файла

Перед распознаванием речи происходит предварительная проверка размера файла:

  • минимальный размер — 30 КБ, соответствует примерно 1–2 секундам записи;

  • максимальный размер — 30 МБ, 10 минут записи весят около 5 МБ.

Примечание

Чтобы не отрисовывались большие аудиозаписи, укажите Максимальный размер аудиофайла (Mb) для визуализатора в Локальных настройках.

Настройка через командную строку

Дополнительные параметры модуля распознавания можно задать в файле локальной конфигурации сервера /etc/staffcop/config.

  1. Откройте файл config:

    sudo nano /etc/staffcop/config
    
  2. Добавьте в конец файла ключи T-Bank VoiceKit:

    TINKOFF_API_KEY = '...'
    TINKOFF_SECRET_KEY = '...'
    
  3. При необходимости добавьте дополнительные опции и сохраните изменения:

    • Включить отладочную информацию:

      SPEECH_RECOGNITION_DEBUG
      
    • Минимальная продолжительность аудиозаписи, по умолчанию 3 секунды:

      SPEECH_RECOGNITION_AUDIO_DURATION_MIN = 3
      
    • Время устаревания JWT-токена, который используется в API Tinkoff, по умолчанию 600 секунд:

      TINKOFF_JWT_EXPIRATION = 600
      
    • Максимальное количество попыток распознавания, по умолчанию 5:

      SPEECH_RECOGNITION_ATTEMPTS_LIMIT = 5
      
  4. Перезапустите сервер:

    staffcop restart
    

После перезапуска будут применены новые настройки распознавания речи.