Вы здесь

«Яндекс» запустил облачную платформу распознавания речи

На данный момент облачный сервис распознавания речи использует компания Oktell, выпускающая программное обеспечение для колл-центров — технология позволяет понимать речь звонящего в колл-центр человека, чтобы соединить его с нужным специалистом. Cubic Robotics, выпускающая домашних роботов CUBIC, также внедрила технологию, чтобы робот понимал все команды хозяина.

Технологию можно использовать в широком спектре продуктов: от игр до навигационных систем. Она применима в медицине (для протоколирования операций) или в телефонии (для автоматизации работы колл-центров). Платформу можно внедрить в бытовые приборы, автомобили, «умные дома» и т.д.

Как отмечено в названии сервиса, это — облачная технология: голосовые запросы обрабатываются на серверах «Яндекса». Распознавание занимает около секунды. SpeechKit Cloud понимает два языка — русский и турецкий.

Технологию Yandex SpeechKit «Яндекс» запустил в 2013 году. На настоящий момент ею пользуются более 400 приложений для iOS, Android и Windows Phone (справочники и каталоги, геоинформационные приложения, игры, магазины), и она обрабатывает миллионы голосовых запросов ежедневно. В основу технологии SpeechKit положены акустические и языковые модели, построенные с использованием нейронных сетей, которые обучаются на больших массивах данных.

Система умеет распознавать команды и поисковые запросы, географические запросы, короткие тексты. В дальнейшем появится возможность работать с длинными текстами — создавать расшифровки лекций, интервью, видеозаписей. Распознавание происходит почти в реальном времени — задержка не превышает одной секунды. Точность распознавания запросов достаточно высокая: для коротких запросов она составляет 85%, для геозапросов — 95%, для текстов — 82%. Человек распознаёт на слух 96-99% услышанного.

Yandex SpeechKit уже используется в мобильных продуктах «Яндекса» — «Яндекс.Навигаторе», «Яндекс.Картах», «Яндекс.Браузере», «Яндекс.Городе», в поисковых продуктах.

Ранее технология была доступна для сторонних разработчиков в виде Yandex SpeechKit Mobile SDK — это мультиплатформенная библиотека для мобильных приложений для iOS, Android и Windows Phone. С её помощью разработчики могут внедрить голосовое управление, голосовой ввод текста или поиск внутри приложения для тех ситуаций, когда пользователь не может вбивать запросы руками. SpeechKit Mobile SDK предоставляется бесплатно при объёме до 10 тысяч голосовых запросов в сутки. При превышении лимита условия оговариваются отдельно.

Взаимодействие со SpeechKit Cloud происходит через HTTP API, что подразумевает простоту интерфейса, высокую доступность и отсутствие затрат на поддержку инфраструктуры. Для разработчиков SpeechKit Cloud будет бесплатным в течение месяца, в дальнейшем стоимость формируется исходя из количества запросов — в среднем, $5 за тысячу.


SNCE Рекомендует:

Будьте в курсе новостей индустрии, получайте только полезную информацию

Скоро... Подпишитесь чтобы узнать первым!