Распознавание речи и голосовое управление: будущее интерфейсов?

17.01.2019 19:33:09

Речевые системы и обработка естественной речи - будущее интерфейсов или шаг к связке “человек-машина”?

Мир уверенно избавляется от “последней мили”: новый формат - это децентрализованный “рой”, подразумевающий минимизацию расстояний между физическими и виртуальными объектами. В случае с компьютерными системами и робототехникой, речь идет об уходе от “интерфейсов” и развитии комплекса взаимодействий зарождающейся связки “человек-машина”.

Последовательное появление перфокарт, клавиатур, мышек и тачскринов можно рассматривать как набор мелких шажков, однако настоящим прорывом станет формирование исчерпывающей естественной экосистемы взаимодействий, исключающих искусственные ограничения и барьеры.

Фантастика и футурология связали подобный прорыв с моментом появления нейроинтерфейсов, однако, в реальности, барьер исчезнет уже в том случае, если каждый человек сможет задействовать комплекс интуитивно понятных инструментов, не сталкиваясь при этом с массой простоев и затруднений.

Компьютерная грамотность людей сменяется “человеческой грамотностью” устройств: роботы и ИИ учатся “говорить” и “слушать” естественную речь. Речевые взаимодействия удобны и просты, к тому же, они не используют ни руки, ни глаза человека. Для сравнения, среднестатистический англоязычный пользователь произносит до 150 слов в минуту, а печатает всего 40.

Источник изображения: voiceinthemachine.com

В 20-х годах прошлого века, когда слово “радио” было продающим, мир увидел игрушку Radio Rex. Скрытая в будке пружина выталкивала из нее игрушечного пса, стоило устройству “услышать” первую форманту имени Рекс. В 2010-е годы, технологии распознавания речи получили стремительное развитие: разработчики задействовали алгоритмы глубокого обучения, нарастив качество и точность работы систем.

В 2016 году Microsoft отчитались о создании алгоритма, способного распознавать речь с долей ошибок в 5.9% - т.е. той же, что и у большинства людей.

В 2017 году Google довел коэффициент эффективности своей голосовой системы до 95%. Собственные разработки в области распознавания речи представили Apple, Amazon и IBM.

Выходит, технологии, способные синтезировать и воспринимать речь с той же долей ошибок, что и человек, уже готовы для коммерциализации. По данным IDTechEx Research, рынок устройств с голосовым управлением достигнет объемов порядка $15.5 млрд к 2029 году. Стремительное развитие получит сегмент систем, предназначенных для англоязычной аудитории. Рынок отличается высокими входными барьерами: желающим посостязаться с гигантами придется разжиться корпусами речи - огромными массивами размеченных речевых данных - аудиосигналами и соответствующими им транскрибированным письменным текстом.

По материалам: markets.businessinsider.com; источник изображения в заставке - pixabay.com

За новостями робототехники, ИИ, а также за трендами удобно следить в телеграм-канале prorobots

8 наград

64.536498 Ƶ

Отобразить форму комментирования

Комментарии