Если мысль о том, что голосовые помощники захватывают мир, пугает вас, сейчас самое время отвести взгляд от экрана. Голосовые ассистенты незаметно входят в нашу обыденную жизнь, что подтверждает исследование Google: помощником пользуются более чем один раз в день 41% взрослых и 55% подростков. Статья Голосовые ассистенты (Роботы-операторы), 80% опрошенных россиян постоянно общаются с голосовыми помощниками, В первом полугодии количество звонков с помощью голосового робота составило 360 млн, Смотрите также Голосовые помощники.
Список TOP-30 популярных голосовых помощников в мире
Голосовые помощники составят расписание, переведут деньги, закажут еду, возьмут на себя управление умным домом — в общем, они умеют все, что положено уметь хорошему помощнику. Перспективы монетизации голосовых помощников Согласно прогнозам Juniper Research, к 2023 году в мире будут использовать 8 миллиардов голосовых помощников — на одного человека будет приходиться дватри ассистента. Полный список голосовых команд для голосового ассистента Маруся от компании Mail ru (VK). В то же время современные ученые утверждают, что языковые модели ИИ, на которых основаны голосовые помощники, не столько понимают нас, сколько имитируют это понимание.
Как настроить Марусю на телефоне. Здесь всё, что нужно знать
Aiva создала голосового "помощника", обеспечивающего коммуникации пациентов с медицинской организацией и улучшающие рабочие процессы в ней. Специально чтобы подсчитать, сколько может стоить сторонней компании обслуживание домашнего голосового помощника, установил диктофон и посчитал, сколько запросов в среднем в день у меня к Google Home. В 2019 году IQ Loup Ventures протестировали голосовых помощников и выяснили – Google Assistant понимает больше вопросов, чем конкуренты и дает наиболее развернутые и понятные ответы.
Маруся голосовой помощник команды для умных колонок VK Капсула
То есть большинство владельцев умных девайсов используют их исключительно как аудиоустройства. Интеграция с аудиостриминговыми сервисами — самый понятный и популярный сценарий для виртуальных помощников. Голос — естественный и удобный способ управления музыкальным потоком. Музыка как настроенческая область сама подталкивает нас к голосовому взаимодействию. В отличие от сервисных запросов — «купи бананы» или «позвони бабуле» — здесь менее всего важна точность.
Напротив, пользователи стремятся уйти от детализации. On demand-обращения уступают место сложным и абстрактным формам: не «поставь КиШа», а «поставь что-нибудь бодрое». Это подтверждает готовность аудитории воспринимать голосового помощника как систему, потенциально способную на сложное, почти человеческое взаимодействие. И системы постепенно начинают этому соответствовать, самообучаясь и усиливая свои навыки кастомизации.
Именно поэтому наибольшее развитие голосовых помощников происходит не в ecommerce, фудтехе или в сфере госуслуг, а в музыкальных сервисах. Сегодня аудиостриминговые приложения — единственная область, в которой возможности виртуальных ассистентов раскрываются полностью и соответствуют ожиданиям потребителя. В остальных сферах голосовые помощники всё ещё не самодостаточны. После периода завышенных ожиданий 2018—2019 годов, когда ИТ-компании одна за другой анонсировали выход умных колонок, кривая hype cycle вывела технологию на новый виток — избавления от иллюзий.
Оказалось, что на пути развития технологии стоят серьёзные препятствия. Есть сложности с интерфейсом ввода и вывода вспомните, как часто вам хотелось показать Алисе, что именно вы имеете в виду. Есть трудности с эмоциональным восприятием помощников и общением с неживыми предметами. Голос удобен для управления, но в контексте человеческого общения он не существует сам по себе.
Огромное значение имеет интонация, порядок слов — нюансы, к восприятию которых искусственный интеллект приблизился лишь отдалённо. Но дело не только в способности голосовых помощников воспринимать эмоции или инверсию. Системы станут самодостаточными, по-видимому, только когда дополнятся другими девайсами. Например, AR-очками, которые добавят к голосовому управлению визуальный компонент.
Речь идёт не об отдельных кейсах использования виртуальных ассистентов, а о создании новой системы коммуникации XR — extended reality. Она объединит технологии AI, VR, MR и AR в единый способ взаимодействия с окружающей средой, в котором голосовое управление будет естественно сочетаться с другими компонентами. XR станет новым информационным слоем в пространстве. В тот момент, когда вы, надев AR-очки, сможете сказать Алисе: «Смотри, какой ресторан, добавь-ка его мне на карту и поищи похожий рядом с домом» — можно будет говорить, что голосовые помощники стали полноценной частью нашей жизни.
Какой вывод можно сделать из этой гипотезы? Ждём появления нового технологического чуда — AR-очков от Apple или Microsoft. До тех пор голосовые помощники смогут развиваться лишь линейно, оттачивая мастерство точного распознавания человеческой речи или даже эмоций.
По оценкам экспертов, если в конце 2018 года по всему миру люди использовали 2,5 миллиарда виртуальных помощников, то через пять лет, в 2023-м, этот показатель достигнет восьми миллиардов. Популярность голосовых ассистентов в мире растет.
Amazon Alexa, Apple Siri, Google Assistant, Microsoft Cortana, Samsung Bixby и российская "Алиса" совершенствуются и все лучше справляются со своими задачами, такими как поиск нужной информации в интернете, управление календарем и будильником, совершение звонков по телефону, озвучивание полученных сообщений и отправка ответных, развлечение пользователей и многое другое. Сегодня активнее всего виртуальными помощниками пользуются владельцы смартфонов, но аналитики ожидают, что в ближайшие годы голосовые ассистенты будут быстро распространяться и на других видах устройств. Также в прогнозе Juniper Research говорится о стремительном развитии голосовой коммерции - к 2023 году объем этого рынка превысит 80 миллиардов долларов.
К числу недостатков программы «Дуся» можно отнести то, что она является платной. Пользователю даётся неделя на знакомство с интеллектуальной помощницей — по истечении этого срока придётся приобрести подписку. Голосовой помощник давно не обновлялся разработчиками, поэтому не поддерживается некоторыми устройствами. Особенности приложения: Можно самому добавлять скрипты, чтобы «Дуся» понимала даже специфичные задачи. Активация жестами: встряхиванием, поднесением к уху и пр. Более 150 встроенных функций: прокладывание маршрутов, поиск мест и не только.
Импорт и экспорт скриптов. Голосовые помощники на ПК Управление компьютером тоже можно осуществлять при помощи виртуального ассистента, хотя об этом знают лишь немногие.
Однако на сегодняшний день существуют и вполне реальные кейсы, когда с помощью голосовых помощников достигаются конкретные бизнес-цели. Так, например, Мегафон использует виртуального ассистента «Елена» , чтобы снизить нагрузку на свои колл-центры. Например, ассистент может помочь узнать актуальный баланс, количество мегабайт, минут и SMS на вашем номере, получить выписку по расходам, узнать о подключенных услугах, отключить ненужные, подобрать новый тариф, а также оплатить счета. Ежедневно «Елена» обрабатывает около 75 тысяч обращений клиентов, приблизительно 45 тысяч из которых обслуживает самостоятельно, не обращаясь к помощи операторов контактного центра.
Также похожим функционалом обладает недавно запущенный голосовой помощник «Олег» от «Тинькофф», который может переводить деньги на счета, бронировать столик в ресторане, записывать в салоны красоты, покупать билеты в кино, менять данные пользователя в экосистеме банка, заказывать и отправлять на почту электронные документы, а также общаться на свободные темы, консультировать по банковским продуктам и давать советы, опираясь на информацию из «Тинькофф-журнала». Несмотря на существование барьеров использования голосовых помощников, в ближайшей перспективе видится возможность появления отдельного сегмента цифровой торговли - V-commerce или Voice Commerce. Мы прогнозируем, что люди будут все больше пользоваться голосовыми ассистентами для транзакционных действий: заказа еды и продуктов, оплаты билетов, покупки определенных категорий товаров. В середине июня Mail. Пока что она выполняет стандартные запросы, помогая искать нужную информацию в интернете, включать музыку, уточнять прогноз погоды, стоимость авиа и железнодорожных билетов, а также, например, какие фильмы идут в кино.
Call-центры вымрут как динозавры: что ждет рынок голосовых помощников
Разработчики утверждают, что «Агрегат» гораздо лучше Cortana по ряду причин: во-первых, «Агрегат» понимает русский, во-вторых, он устанавливается на любую операционную систему будь то OSX, Windows или Linux , в-третьих, пользователи могут повышать функциональность «Агрегата» путём установки дополнительных модулей. Typle — простенькая утилита для Windows 7, 8 и 10. Функционал Typle весьма ограничен: программа может открывать файлы и приложения, но при этом не способна, скажем, управлять музыкальным проигрывателем. Зато Typle прекрасно понимает русский язык, а благодаря продвинутой технологии распознавания речи может работать даже с бюджетными микрофонами. Заключение В скором времени владельцев гаджетов с Android ждет нелегкий выбор. А между тем, развитие голосовых помощников идет полным ходом. У Тинькофф и Сбербанка, например, уже давно также появились свои собственные ассистенты.
Удивляться этому не следует, ведь голосовые помощники — это не только весело, но и действительно удобно.
Алиса то ли отшучивается, то ли думает, что шутим мы. И только Ассистент выдал четкий и точный ответ. Дальше посложнее. Вопросы на индексацию новостей: Все три помощника выдали поисковые ссылки с небольшими превью. Однако в окне Ассистента правильный ответ выделен жирным шрифтом, поэтому можно считать, что только этот бот справился с заданием. Ассистент выступил блестяще, Алиса с Сири отбились ссылками, но в окне помощника «Яндекса» хотя бы видно название фильма. Еще один вопрос про «Оскар» — но посложнее: И вновь Ассистент на высоте! Сири внезапно ответила на вопрос, который ей задавали полчаса назад, Алиса открыла «Яндекс». Кроме того, Ассистент распознал контекст — понял, что «про него» — это про Тома Хэнкса.
Еще немного кино: Все как всегда: Сири опять городит черти-что, Алиса и Ассистент справляются без труда. Теперь — к знаменитостям: Программа «Престолы»? Сири, ты серьезно? У Алисы и Ассистента все как всегда хорошо. Теперь задачка на распознавание контекста. Ассистент в него «умеет», поэтому посмотрим на Алису и Сири. На первый вопрос Сири ответила и даже, что забавно, показала возраст Дурова , а вот второй посчитала за отдельный. Алиса выступила на уровне Google Ассистента. Теперь — к менее известным фактам: Сири вообще не поняла, на каком языке к ней обратились. Ассистент с Алисой как всегда не подвели.
Задачи Начнем с самых простых и полезных. Сообщения: А вот здесь подводит уже Алиса. Siri и Ассистент отправляют сообщения, Алиса отшучивается.
Она ответит на входящие вызовы, если абонент находится вне зоны действия сети, не поднимает трубку или сбрасывает звонок. Ассистент поможет узнать контакты курьера или детали записи в салон красоты. Когда голосовой помощник завершит разговор, пользователь получит аудиозапись и текстовую расшифровку в Telegram. Подключить и настроить ассистента можно с помощью специального бота в Telegram.
Еда, такси, музыка и прочее с этим голосовым помощником работает в идеальной паре. Кроме того, стоит отметить обучаемость Алисы: она по умолчанию вежлива, но подстраивается под тон собеседника — может даже нагрубить в ответ, но всегда сумеет выйти из конфликтной ситуации. В детском режиме эта опция отключена, и помощник сразу аккуратно игнорирует грубости и оскорбления. Кстати, о взаимодействии с детьми: Алиса умеет общаться с малышами, рассказывать им сказки и даже придумывать новые на пару с маленькими собеседниками. Загадки, анекдоты, тосты и, самое главное — поддержание разговора: помощник от Яндекса умеет сохранять контекст, запоминая предыдущие вопросы и реплики. Одно из последних обновлений Алисы — распознавание голосов разных членов семьи. То есть, например, в зависимости от того, кто именно оставляет голосовой запрос, Алиса включает конкретную музыкальную подборку. В числе недостатков — необходимость отдельно скачивать приложение, а также несовместимость с сервисами Google и Apple. Маруся Ассистент от Mail. Как и Ал иса, Ма руся имеет свой «дом» — умную колонку «Капсула». Вообще, эти ассистенты очень похожи во многом, но Маруся использует сервисы Mail.
Голосовой помощник Alexa заговорит голосом усопших
А вот последнее на этот раз досталось Amazon Alexa. Сравнивались реализации голосовых помощников на смартфонах. Согласно тесту, Siri и Google Assistant конкурентоспособны, когда дело доходит до скорости. При этом время задержки Siri и голосового помощника Bixby от Samsung больше, чем у Assistant и Alexa.
Cortana на 2023 год владеет всего 13 языками. Возможно, со временем Кортана освоит русский и другие языки.
Однако, долго ли отечественным пользователям «ждать у моря погоды» — никто не знает. Таким образом, пока стоит обратиться к сторонним голосовым помощникам для компьютеров — благо, такие варианты есть. Вот лишь некоторые из тех, которые поддерживают русский язык: «Горыныч» — ассистент, владеющий как русским, так и английским. Проблема «Горыныча» заключается в том, что речь он распознаёт весьма посредственно — если владелец ПК вдруг охрипнет, то голосовой ассистент просто перестанет его понимать. Разработчики утверждают, что «Агрегат» гораздо лучше Cortana по ряду причин: во-первых, «Агрегат» понимает русский, во-вторых, он устанавливается на любую операционную систему будь то OSX, Windows или Linux , в-третьих, пользователи могут повышать функциональность «Агрегата» путём установки дополнительных модулей.
Typle — простенькая утилита для Windows 7, 8 и 10.
То, что совсем недавно выглядело, как игрушка для убийства времени, превратилось в полноценный инструмент. Основным инструментом для взаимодействия предсказуемо оказался смартфон, — люди, разговаривающие с настольным компьютером всё ещё выглядят достаточно странно. А чем же россияне занимаются с умными помощниками?
Например, в самом начале пути Alexa почти не знала немецкие рок-группы, хотя сам язык поддерживался. Сегодня поиск по музыкальным группам Германии и жанрам музыки пусть и не идеален, но вполне сносен, вы можете получить необходимые сведения, запросив информацию. Система обучается, и прогресс налицо. Для сторонних разработчиков возникает вопрос, кто будет создавать и поддерживать такую систему. Например, в Китае сейчас наблюдается бум стартапов, что инвестируют десятки миллионов долларов в это направление, они создают компании, которые пытаются в одном продукте предоставить как раз обработку сценариев и их автоматизацию. Это не только и не столько рынок голосовых помощников, для такой автоматизации найдется более широкое применение, например, это обработка заказов на сайтах, создание чат-ботов для поддержки клиентов любого бизнеса, в России вы уже сталкиваетесь с этим, обращаясь в службу поддержки Билайна, беседу с вами ведет программа.
Бум развития сценариев, которые нужны потребителям, напрямую связан с помощниками, они выигрывают от того, что в алгоритмы загоняют стандартные действия. К сожалению, формализовать естественный язык не так-то просто, поэтому любые диалоги с голосовым помощником или программой в сети не являются очень глубокими. Так, любой разговор можно описать в парадигме вопрос-ответ, когда каждая пара образует один уровень, большинство программ обработки диалогов сегодня ведут более-менее осмысленный разговор для 2-3 уровней, затем они начинают пасовать, и тогда появляется продуманная программистами заглушка, например, у Siri это шутки, которые должны скрыть незнание программой того, как действовать дальше. Пользовательские сценарии условно можно разделить на простейшие, те, что не зависят от страны и языка, и сложные. То есть, это предопределенные действия, реализация которых в устройстве или программе не вызывает никаких затруднений. В простых сценариях важно, чтобы система распознавания речи правильно распознала контекст и то, является запрос утверждением или вопросом. Например, одна и та же фраза может восприниматься системой различно: «Будильник на 8 часов стоит или нет? Многие системы первоначально просто ставили будильник на это время, не проверяя, есть он уже или нет. Теперь они «научились» проверять состояние будильника и правильно отвечать на этот вопрос. Сложные сценарии напрямую привязаны к контексту языка и страны.
Например, спрашивая, что сегодня идет в кино, вы не ждете, что голосовой помощник зачитает вам список фильмов в Нью-Йорке, наверное, вы хотите услышать его для своего города и желательно для своего района или любимого кинотеатра. Локальный контекст становится архиважным, и глобальные компании зачастую не могут сделать ничего в этой области. Исключением является Google, у которого системы Google Now и Google Maps построены вокруг сбора точек интереса, или POI, то есть «изучают» мир, отзывы о тех или иных заведениях. В Amazon этой информации нет, поэтому сценарии подразумевают не только алгоритм действий, но им нужна и первоначальная информация. В России дочерняя компания i-Free под названием Just AI с 2011 года создает такую платформу, то есть они пытаются создавать сценарии, применимые для российского рынка. Первым продуктом, в котором на массовом рынке применяются сценарии, созданные компанией, стал робот Pudding в нашем варианте «Емеля» , он умеет разговаривать на русском языке, искать определенный контент и защищать детей от нежелательных слов и запросов. Назвать «Емелю» роботом сложно, это самый настоящий голосовой помощник, ориентированный на детей в возрасте от 5 до 11 лет, при этом он не является игрушкой. Со стороны компании Just AI в этом голосовом помощнике сценарии и распознавание русской речи движок от Nuance. В теории, если ребенок начнет интересоваться самоубийством или подобными темами, такой «робот» может отговорить его и отправить экстренное сообщение родителям — это те самые сценарии, которые нужно разработать и добавить их в устройство. Другой пример, дети часто хотят, чтобы им рассказали сказку, выбор сказок огромен, и возникает вопрос, на какой остановиться.
В таких голосовых помощниках будет выбор приоритетных произведений, известных как детям, так и родителям. То есть, если вы не знаете, что именно хотите услышать, то говорите: «Хочу сказку». А уже сам помощник выбирает, какую именно сказку вы услышите. Насколько умным будет ваш голосовой помощник, напрямую зависит от того, насколько он понимает контекст беседы, знает ваш образ жизни например, где вы работаете и адрес офиса, ваш распорядок дня. Понятно, что в этой гонке преимущество за Google, так как в рамках Ассистента компания знает про вас так много, что может построить разумные сценарии и подсказки, которые будут уместны и важны. Другие компании в этом направлении пока являются отстающими, но пытаются быстро развиваться. Умение обработать запрос, правильно выделить его контекст и найти релевантный ответ для голосовых помощников становится важнейшим свойством. Те компании, что научились выпускать голосовых помощников в Китае а таких уже десятки , не могут быстро и легко локализовать продукт для России или других стран, им нужны сценарии, которых у них нет. Им нужно понимание локального контекста, а оно не может появиться из ниоткуда. И на этом пути выигрывают компании, которые уже начинают собирать такие данные всеми возможными способами.
Мне это чем-то напоминает золотую лихорадку в картографии, когда в первые годы развития карт на мобильных устройствах все бились за максимальное и точное наполнение по POI, так как карта без расшифровки названий компаний и магазинов, времени их работы и тому подобного — это почти бесполезный рисунок. Обратите внимание, что есть еще один важный момент для домашних голосовых помощников, это наличие контента, например, музыки. Одно дело, когда у вас уже есть подписка на какой-то музыкальный сервис и вы слушаете и ищете музыку в нем. Другое дело, если вы ищете что-то, чего там нет, тут на первый план выходит легальность воспроизведения и то, насколько большая библиотека доступна вашему помощнику, может ли он получить этот контент бесплатно или он должен его купить. Это интересный вопрос, но на нем мы останавливаться не будем. Из текста в голос — обратное преобразование Самые сложные операции позади, голос распознали, запрос обработали, помощник получил ответ в виде текста, и тут самое время его озвучить. К сожалению, системы преобразования текста в речь не так уж идеальны, и в них с легкостью можно узнать робота.
Artox Media Digital Group о развитии голосовых помощников
Агентство Juniper Research опубликовало смелый прогноз индустрии голосовых помощников и умных ассистентов. Специально чтобы подсчитать, сколько может стоить сторонней компании обслуживание домашнего голосового помощника, установил диктофон и посчитал, сколько запросов в среднем в день у меня к Google Home. Поскольку развитие голосовых ассистентов своими силами связано с продолжительными инвестициями, за исключением гигантов никто позволить себе такого не может. Siri считается одним из лучших голосовых помощников, однако в зарубежных независимых тестах и сравнениях в последние годы она уступает более гибким помощникам от Google и Amazon как в скорости реакции, так и в совместимости с умными устройствами других компаний.
Обзор голосовых помощников: что умеют Алиса, Салют, Маруся, Google Assistant и Siri
Добавьте в голосовой помощник Алису от Яндекса новые навыки на тему — Новости. В процессе голосовому ассистенту можно задавать вопросы и просить его о помощи, если что‑то не получается отправить. Первым в привычном понимании голосовым помощником стала Siri от Apple, которая появилась в iPhone 4S в 2011 году. Агентство Juniper Research опубликовало смелый прогноз индустрии голосовых помощников и умных ассистентов.