Speech-to-text (Распознавание речи)¶
Записи звука с компьютеров сотрудников можно преобразовать в текст с помощью облачного модуля T-Bank VoiceKit.
Внимание
Для работы модуля серверу Staffcop требуется доступ к адресам voicekit.tinkoff.ru и api.tinkoff.ai. Адреса находятся на территории РФ.
VoiceKit разработан компанией T-Bank. Он не использует зарубежные технологии и не передает данные за пределы собственного дата-центра, где происходит обработка аудио.
Модуль поддерживает многопоточную работу и может одновременно обрабатывать несколько аудиофайлов.
Оплата облачного модуля принимается через личный кабинет на сайте software.tbank.ru.
Примечание
При распознавании аудиозапись может быть записана как диалог — речь двух собеседников. Для этого в разделе конфигурации Запись звука включите опции Запись с микрофона и Запись звука колонок.
Пример распознанного диалога, где с1 и с2 — первый и второй собеседники:

Настройка и активация модуля¶
Чтобы включить модуль распознавания:
Перейдите на сайт software.tbank.ru и войдите в личный кабинет.
Нажмите на Создать ключ и заполните поля с названием и описанием ключа.
Нажмите Сгенерировать ключ и скопируйте полученные API Key и Secret Key.
Предупреждение
Сохраните ключи на компьютере — Secret Key станет недоступен, как только вы уйдете со страницы создания ключа.
Откройте веб-интерфейс Staffcop и перейдите в раздел Панель управления → Параметры сервера.
В строке Распознавание голоса укажите:
Разрешить конфигурацию по-умолчанию — позволяет использовать распознавание в конфигурации агентов по умолчанию;
Движок → Tinkoff VoiceKit;
API Key и Secret Key — значения, которые получены при генерации ключа в T-Bank VoiceKit;
опционально: Принудительно — включите опцию, чтобы запустить распознавание всех записей, начиная с самой первой.
Нажмите кнопку Сохранить. Теперь распознавание речи включено и готово к работе.
Распознавание аудиозаписей¶
Для распознавания речи в текст доступны два инструмента:
распознавание одной записи,
политика распознавания речи.
Единоразовое распознавание¶
Кликните на кнопку Распознавание под событием с типом Запись звука в Линзе событий. Система переведет речь в текст.
Не требует отдельной политики. Предназначено для демонстрации технологии и проверки работы.

Политика «Распознавание речи»¶
Для фонового распознавания речи из поступающих событий настройте политику Распознавание речи.
Политика позволяет:
непрерывно распознавать текст,
накапливать текстовую базу данных,
анализировать данные с помощью встроенных политик распознавания, включая словари, регулярные выражения и политики безопасности.
Чтобы включить политику распознавания:
Перейдите во вкладке Политики в папку Политики → Анализ контента и откройте Распознавание речи.
В окне политики включите флаг Политика активна.
Перейдите во вкладку Фильтр и при необходимости добавьте ограничения.
Примечание
Укажите конкретные компьютеры или пользователей, чтобы ускорить процесс распознавания.
Перейдите на вкладку Распознавание речи и выберите Движок → Tinkoff VoiceKit,
Заполните поля API Key и Secret Key,
Сохраните изменения.
Дополнительно¶
Ограничения по размеру файла¶
Перед распознаванием речи происходит предварительная проверка размера файла:
минимальный размер — 30 КБ, соответствует примерно 1–2 секундам записи;
максимальный размер — 30 МБ, 10 минут записи весят около 5 МБ.
Примечание
Чтобы не отрисовывались большие аудиозаписи, укажите Максимальный размер аудиофайла (Mb) для визуализатора в Локальных настройках.
Настройка через командную строку¶
Дополнительные параметры модуля распознавания можно задать в файле локальной конфигурации сервера /etc/staffcop/config.
Откройте файл config:
sudo nano /etc/staffcop/config
Добавьте в конец файла ключи T-Bank VoiceKit:
TINKOFF_API_KEY = '...' TINKOFF_SECRET_KEY = '...'
При необходимости добавьте дополнительные опции и сохраните изменения:
Включить отладочную информацию:
SPEECH_RECOGNITION_DEBUG
Минимальная продолжительность аудиозаписи, по умолчанию 3 секунды:
SPEECH_RECOGNITION_AUDIO_DURATION_MIN = 3
Время устаревания JWT-токена, который используется в API Tinkoff, по умолчанию 600 секунд:
TINKOFF_JWT_EXPIRATION = 600
Максимальное количество попыток распознавания, по умолчанию 5:
SPEECH_RECOGNITION_ATTEMPTS_LIMIT = 5
Перезапустите сервер:
staffcop restart
После перезапуска будут применены новые настройки распознавания речи.