Распознавание речи и голосовое управление: будущее интерфейсов?
Речевые системы и обработка естественной речи - будущее интерфейсов или шаг к связке “человек-машина”?
Мир уверенно избавляется от “последней мили”: новый формат - это децентрализованный “рой”, подразумевающий минимизацию расстояний между физическими и виртуальными объектами. В случае с компьютерными системами и робототехникой, речь идет об уходе от “интерфейсов” и развитии комплекса взаимодействий зарождающейся связки “человек-машина”.
Последовательное появление перфокарт, клавиатур, мышек и тачскринов можно рассматривать как набор мелких шажков, однако настоящим прорывом станет формирование исчерпывающей естественной экосистемы взаимодействий, исключающих искусственные ограничения и барьеры.
Фантастика и футурология связали подобный прорыв с моментом появления нейроинтерфейсов, однако, в реальности, барьер исчезнет уже в том случае, если каждый человек сможет задействовать комплекс интуитивно понятных инструментов, не сталкиваясь при этом с массой простоев и затруднений.
Компьютерная грамотность людей сменяется “человеческой грамотностью” устройств: роботы и ИИ учатся “говорить” и “слушать” естественную речь. Речевые взаимодействия удобны и просты, к тому же, они не используют ни руки, ни глаза человека. Для сравнения, среднестатистический англоязычный пользователь произносит до 150 слов в минуту, а печатает всего 40.
Источник изображения: voiceinthemachine.com
В 20-х годах прошлого века, когда слово “радио” было продающим, мир увидел игрушку Radio Rex. Скрытая в будке пружина выталкивала из нее игрушечного пса, стоило устройству “услышать” первую форманту имени Рекс. В 2010-е годы, технологии распознавания речи получили стремительное развитие: разработчики задействовали алгоритмы глубокого обучения, нарастив качество и точность работы систем.
В 2016 году Microsoft отчитались о создании алгоритма, способного распознавать речь с долей ошибок в 5.9% - т.е. той же, что и у большинства людей.
В 2017 году Google довел коэффициент эффективности своей голосовой системы до 95%. Собственные разработки в области распознавания речи представили Apple, Amazon и IBM.
Выходит, технологии, способные синтезировать и воспринимать речь с той же долей ошибок, что и человек, уже готовы для коммерциализации. По данным IDTechEx Research, рынок устройств с голосовым управлением достигнет объемов порядка $15.5 млрд к 2029 году. Стремительное развитие получит сегмент систем, предназначенных для англоязычной аудитории. Рынок отличается высокими входными барьерами: желающим посостязаться с гигантами придется разжиться корпусами речи - огромными массивами размеченных речевых данных - аудиосигналами и соответствующими им транскрибированным письменным текстом.
По материалам: markets.businessinsider.com; источник изображения в заставке - pixabay.com
За новостями робототехники, ИИ, а также за трендами удобно следить в телеграм-канале prorobots