Преобразование речи в текст или STT — это простой в использовании API, основанный на технологиях искусственного интеллекта Google для преобразования речи в текст.

div>
Поскольку преобразование речи в текст основано на собственных передовых моделях глубокого обучения Google, вы можете рассчитывать на высочайшую точность. Вы также можете настроить распознавание речи, чтобы транскрибировать термины, относящиеся к предметной области, и редкие слова, предоставляя подсказки и повышая точность транскрипции определенных слов или фраз.
Преобразование речи в текст может использовать одно из нескольких методов машинного обучения модели для расшифровки вашего аудиофайла. В настоящее время API предлагает распознавание голоса, которое поддерживает более 1 2 5 125 125 языков и вариантов.
Помимо вышеупомянутых функций, STT API позволяет:
- Транскрибировать ваш контент в режиме реального времени или из сохраненных файлов.
- Повышать удобство использования продуктов с помощью голосовых команд
- Получите информацию о взаимодействии с клиентами, чтобы улучшить свои услуги.
Стоимость преобразования речи в текст зависит от количество измеряется с округлением до 15 секунд аудио, которое успешно обрабатывается службой каждый месяц. Однако вы можете использовать эту услугу бесплатно, если продолжительность вашего аудио не превышает 60 минут в месяц.
Если вас интересует, как включить преобразование речи в текст в вашу программу, ознакомьтесь с курсом Google Cloud: AI Speech-to-Text с Python 3 .