Бројот на апликации и важноста на гласовните интерфејси рапидно расте

содржина

голема четворка
Американците сакаат да купат
Измијте, печете, исчистете!
Стар концепт. Дали конечно дојде нејзиното време?
технички тешко прашање
Глас? Графичка уметност? Или можеби и двете?
Внимавајте на безбедноста!

Американско семејство во Портланд, Орегон неодамна дозна дека гласовниот асистент на Алекс ги снимал нивните приватни разговори и ги испратил на пријател. Сопственичката на куќата, која медиумите ја нарекоа Даниела, им кажа на новинарите дека „никогаш повеќе нема да го поврзе овој уред бидејќи не може да и се верува“.

Alexa, обезбедени од звучниците Echo (1) и други гаџети во десетици милиони домови во САД, почнува да снима кога ќе го слушне неговото име или „повик збор“ изговорени од корисникот. Тоа значи дека дури и ако зборот „Alexa“ се спомнува во ТВ реклама, уредот може да почне да снима. Токму тоа се случи во овој случај, вели Amazon, дистрибутер на хардвер.

Остатокот од разговорот гласовниот асистент го толкува како команда за испраќање порака“, се вели во соопштението на компанијата. „Во одреден момент, Алекса гласно праша: „На кого? Продолжението на семејниот разговор за дрвениот под машината требаше да го сфати како ставка на списокот со контакти на клиентите. Така барем мисли Амазон. Така, преводот се сведува на серија несреќи.

Вознемиреноста, сепак, останува. Затоа што поради некоја причина во куќа каде што сè уште се чувствувавме удобно, мораме да влеземе во некаков „гласовен режим“, да гледаме што зборуваме, што емитува телевизорот и, се разбира, што е овој нов звучник на комодата. вели . нас.

Сепак, И покрај технолошките несовршености и загриженоста за приватноста, со порастот на популарноста на уредите како Amazon Echo, луѓето почнуваат да се навикнуваат на идејата за интеракција со компјутерите користејќи го нивниот глас..

Како што истакна Вернер Фогелс, CTO на Amazon, за време на неговата сесија AWS re:Invent кон крајот на 2017 година, технологијата досега ја ограничи нашата способност за интеракција со компјутерите. Ние внесуваме клучни зборови во Google користејќи ја тастатурата, бидејќи ова е сепак најчестиот и најлесниот начин за внесување информации во машина.

рече Фогелс. -

голема четворка

Кога го користевме пребарувачот Google на телефонот, веројатно одамна забележавме знак за микрофон со повик за зборување. Ова Гугл сега (2), кој може да диктира барање за пребарување, да внесува порака преку глас, итн. Во последниве години, Google, Apple и Amazon значително се подобрија технологија за препознавање глас. Гласовните асистенти како Alexa, Siri и Google Assistant не само што го снимаат вашиот глас, туку разбираат што им кажувате и одговараат на прашања.

Google Now е достапен бесплатно за сите корисници на Android. Апликацијата може, на пример, да постави аларм, да ја провери временската прогноза и да ја провери маршрутата на Google Maps. Разговорна екстензија на состојбите на Google Now Помошник на Google () – виртуелна помош на корисникот на опремата. Достапно е главно на мобилни и паметни домашни уреди. За разлика од Google Now, може да учествува во двонасочна размена. Асистентот дебитираше во мај 2016 година како дел од апликацијата за пораки на Google Allo, како и во гласовниот звучник на Google Home (3).

3. Google Home

ИОС системот има и свој виртуелен асистент, Siri, што е програма вклучена со оперативните системи на Apple iOS, watchOS, tvOS homepod и macOS. Siri дебитираше со iOS 5 и iPhone 4s во октомври 2011 година на конференцијата Let's Talk iPhone.

Софтверот се базира на разговорен интерфејс: го препознава природниот говор на корисникот (со iOS 11 е можно и рачно внесување на команди), одговара на прашања и ги завршува задачите. Благодарение на воведувањето на машинско учење, асистент со текот на времето ги анализира личните преференци корисникот да обезбеди порелевантни резултати и препораки. Siri бара постојана интернет конекција - главните извори на информации овде се Bing и Wolfram Alpha. iOS 10 воведе поддршка за екстензии од трети страни.

Уште една од големата четворка Кортана. Тоа е интелигентен личен асистент создаден од Microsoft. Поддржан е на платформите Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android и iOS. Cortana првпат беше претставена на конференцијата за развивачи на Microsoft Build во април 2014 година во Сан Франциско. Името на програмата доаѓа од името на лик од серијата игри Halo. Cortana е достапна на англиски, италијански, шпански, француски, германски, кинески и јапонски.

Корисници на веќе споменатата програма Alexa тие мора да размислат и за јазични ограничувања - дигиталниот асистент зборува само англиски, германски, француски и јапонски.

Виртуелниот асистент Amazon првпат беше користен во паметните звучници Amazon Echo и Amazon Echo Dot развиени од Amazon Lab126. Обезбедува гласовна интеракција, репродукција на музика, креирање список со задачи, поставување на аларм, стриминг на подкаст, репродукција на аудио книги и временска прогноза, сообраќај, спорт и други информации за вестите во реално време, како што се вести (4). Alexa може да контролира повеќе паметни уреди за да создаде систем за домашна автоматизација. Може да се користи и за пригодно купување во продавницата на Амазон.

4. За што користат корисниците Ехо (Според истражувањето)

Корисниците можат да го подобрат искуството на Alexa со инсталирање на „вештини“ (), дополнителни функции развиени од трети страни, кои почесто се нарекуваат апликации како што се времето и аудио програмите во други поставки. Повеќето уреди на Alexa ви дозволуваат да го активирате вашиот виртуелен асистент со лозинка за будење, наречена .

Amazon дефинитивно доминира на пазарот на паметни звучници денес (5). IBM, кој воведе нова услуга во март 2018 година, се обидува да влезе во првите четири Асистентот на Вотсон, наменета за компании кои сакаат да создадат сопствени системи на виртуелни асистенти со гласовна контрола. Која е предноста на решението на IBM? Според претставниците на компанијата, пред сè, на многу поголеми можности за персонализација и заштита на приватноста.

Прво, Watson Assistant не е брендиран. Компаниите можат да креираат свои решенија на оваа платформа и да ги означат со сопствен бренд.

Второ, тие можат да ги обучуваат своите системи за помош со користење на сопствени сетови на податоци, што според IBM го олеснува додавањето функции и команди на тој систем отколку другите технологии VUI (говорен кориснички интерфејс).

Трето, Watson Assistant не му дава на IBM информации за активноста на корисниците - развивачите на решенија на платформата можат само да ги задржат вредните податоци за себе. Во меѓувреме, секој што прави уреди, на пример со Alexa, треба да биде свесен дека нивните вредни податоци ќе завршат на Amazon.

Watson Assistant веќе има неколку имплементации. Системот го користеше, на пример, Харман, кој создаде гласовен асистент за концептниот автомобил Maserati (6). На аеродромот во Минхен, асистент на IBM напојува робот Pepper да им помогне на патниците да се движат наоколу. Третиот пример е Chameleon Technologies, каде што гласовната технологија се користи во мерач на паметен дом.

6. Watson Assistant во концептен автомобил Maserati

Вреди да се додаде дека основната технологија овде исто така не е нова. Watson Assistant вклучува можности за шифрирање за постоечките производи на IBM, Watson Conversation и Watson Virtual Agent, како и API за јазична анализа и разговор.

Амазон не само што е лидер во технологијата за паметен глас, туку ја претвора во директен бизнис. Сепак, некои компании многу порано експериментираа со Echo интеграцијата. Sisense, компанија во BI и аналитичката индустрија, ја воведе интеграцијата Echo во јули 2016 година. За возврат, стартапот Roxy одлучи да создаде сопствен софтвер и хардвер со гласовна контрола за туристичката индустрија. Претходно оваа година, Synqq воведе апликација за земање белешки која користи обработка на глас и природен јазик за додавање белешки и записи во календарот без да мора да ги пишувате на тастатура.

Сите овие мали бизниси имаат високи амбиции. Најмногу од се, сепак, научија дека не секој корисник сака да ги пренесе своите податоци на Amazon, Google, Apple или Microsoft, кои се најважните играчи во градењето платформи за гласовна комуникација.

Американците сакаат да купат

Во 2016 година, гласовното пребарување сочинуваше 20% од сите мобилни пребарувања на Google. Луѓето кои секојдневно ја користат оваа технологија ги наведуваат нејзината практичност и мултитаскинг меѓу нејзините најголеми придобивки. (на пример, можност за користење на пребарувач додека возите автомобил).

Аналитичарите на Visiongain ја проценуваат моменталната пазарна вредност на паметните дигитални асистенти на 1,138 милијарди долари.Такви механизми има се повеќе. Според Гартнер, веќе до крајот на 2018 година 30% од нашите интеракции со технологија ќе биде преку разговори со гласовни системи.

Британската истражувачка компанија IHS Markit проценува дека пазарот на дигитални асистенти со вештачка интелигенција ќе достигне 4 милијарди уреди до крајот на оваа година, а тој број може да се зголеми на 2020 милијарди до 7 година.

Според извештаите од eMarketer и VoiceLabs, 2017 милиони Американци користеле гласовна контрола најмалку еднаш месечно во 35,6 година. Тоа значи зголемување од речиси 130% во однос на претходната година. Само пазарот на дигитални асистенти се очекува да порасне за 2018% во 23 година. Ова значи дека веќе ќе ги користите. 60,5 милиони Американци, што ќе резултира со конкретни пари за нивните производители. RBC Capital Markets проценува дека интерфејсот Alexa ќе генерира до 2020 милијарди долари приход за Amazon до 10 година.

Измијте, печете, исчистете!

Гласовните интерфејси се повеќе смело навлегуваат на пазарите на домашни апарати и потрошувачка електроника. Ова веќе можеше да се види за време на минатогодишната изложба IFA 2017. Американската компанија Neato Robotics претстави, на пример, роботска правосмукалка што се поврзува со една од неколкуте платформи за паметни домови, вклучувајќи го и системот Amazon Echo. Со разговор со паметниот звучник Echo, можете да и наложите на машината да ја исчисти целата ваша куќа во одредени периоди од денот или ноќта.

На саемот беа прикажани и други производи што се активираат со глас, почнувајќи од паметни телевизори кои се продаваат под брендот Toshiba од турската компанија Вестел до загреани ќебиња на германската компанија Beurer. Многу од овие електронски уреди може да се активираат и од далечина со помош на паметни телефони.

Сепак, според претставниците на Bosch, прерано е да се каже која од опциите за домашниот асистент ќе стане доминантна. На IFA 2017, германска техничка група прикажа машини за перење (7), печки и машини за кафе што се поврзуваат со Echo. Bosch, исто така, сака неговите уреди да бидат компатибилни со гласовните платформи на Google и Apple во иднина.

7. Машина за перење Bosch која се поврзува со Amazon Echo

Компаниите како Fujitsu, Sony и Panasonic развиваат свои решенија за гласовни асистенти базирани на вештачка интелигенција. Sharp ја додава оваа технологија во печките и малите роботи кои влегуваат на пазарот. Nippon Telegraph & Telephone ангажира производители на хардвер и играчки за да го приспособат гласовно контролираниот систем за вештачка интелигенција.

Стар концепт. Дали конечно дојде нејзиното време?

Всушност, концептот на Voice User Interface (VUI) постои со децении. Секој што го гледал Star Trek или 2001: A Space Odyssey пред години веројатно очекувал дека околу 2000 година сите ние ќе ги контролираме компјутерите со нашите гласови. Исто така, не беа само писателите на научна фантастика кои го видоа потенцијалот на овој тип на интерфејс. Во 1986 година, истражувачите на Нилсен ги прашаа ИТ професионалците што мислат дека ќе биде најголемата промена во корисничките интерфејси до 2000 година. Тие најчесто укажуваа на развојот на гласовните интерфејси.

Има причини да се надеваме на такво решение. Вербалната комуникација е, на крајот на краиштата, најприродниот начин луѓето свесно да разменуваат мисли, така што неговото користење за интеракција човек-машина изгледа како најдобро решение досега.

Еден од првите VUI, наречен кутија за чевли, беше создаден во раните 60-ти од IBM. Тоа беше претходник на денешните системи за препознавање глас. Сепак, развојот на уредите VUI беше ограничен со границите на компјутерската моќ. Парсирањето и толкувањето на човечкиот говор во реално време бара многу напор, а беа потребни повеќе од педесет години за да се дојде до точка каде што тоа всушност стана возможно.

Уредите со гласовен интерфејс почнаа да се појавуваат во масовно производство во средината на 90-тите, но не добија популарност. Првиот телефон со гласовна контрола (бирање) беше Philips Sparkобјавен во 1996 година. Сепак, овој иновативен и лесен за користење уред не беше ослободен од технолошки ограничувања.

Други телефони опремени со форми на гласовен интерфејс (создаден од компании како RIM, Samsung или Motorola) редовно се појавуваат на пазарот, овозможувајќи им на корисниците да бираат преку глас или да испраќаат текстуални пораки. Сите тие, сепак, бараа меморирање на специфични команди и нивно изговарање во присилна, вештачка форма, прилагодена на можностите на тогашните уреди. Ова генерира голем број на грешки, што, пак, доведе до незадоволство на корисниците.

Сепак, сега влегуваме во нова ера на компјутери, во која напредокот во машинското учење и вештачката интелигенција го отклучуваат потенцијалот на разговорот како нов начин за интеракција со технологијата (8). Бројот на уреди кои поддржуваат гласовна интеракција стана важен фактор кој имаше големо влијание врз развојот на VUI. Денес, речиси 1/3 од светската популација веќе поседува паметни телефони кои можат да се користат за ваков тип на однесување. Изгледа дека повеќето корисници конечно се подготвени да ги приспособат своите гласовни интерфејси.

8. Модерна историја на развојот на гласовниот интерфејс

Меѓутоа, пред да можеме слободно да разговараме со компјутер, како што тоа го правеа ликовите од „Вселенска одисеја“, мора да надминеме голем број проблеми. Машините сè уште не се многу добри во справувањето со јазичните нијанси. Покрај тоа многу луѓе сè уште се чувствуваат непријатно да даваат гласовни команди на пребарувачот.

Статистиката покажува дека гласовните асистенти се користат првенствено дома или меѓу блиски пријатели. Ниту еден од интервјуираните не призна дека користел гласовно пребарување на јавни места. Сепак, оваа блокада најверојатно ќе исчезне со ширењето на оваа технологија.

технички тешко прашање

Проблемот со кој се соочуваат системите (ASR) е извлекување корисни податоци од говорен сигнал и нивно поврзување со одреден збор што има одредено значење за една личност. Произведените звуци се различни секој пат.

Променливост на говорниот сигнал е неговото природно својство, благодарение на кое ние, на пример, препознаваме акцент или интонација. Секој елемент од системот за препознавање говор има одредена задача. Врз основа на обработениот сигнал и неговите параметри, се создава акустичен модел, кој е поврзан со јазичниот модел. Системот за препознавање може да работи врз основа на мал или голем број обрасци, што ја одредува големината на вокабуларот со кој работи. Тие можат да бидат мали речници во случај на системи кои препознаваат поединечни зборови или наредби, како и големи бази на податоци што го содржи еквивалентот на јазичното множество и земајќи го предвид јазичниот модел (граматика).

Проблеми со кои се соочуваат гласовните интерфејси на прво место правилно разбирање на говорот, во кои, на пример, често се испуштаат цели граматички низи, се јавуваат јазични и фонетски грешки, грешки, пропусти, говорни дефекти, хомоними, неоправдани повторувања итн.. Сите овие ACP системи мора да работат брзо и сигурно. Барем тоа се очекувањата.

Изворот на потешкотиите се и акустичните сигнали освен препознаениот говор кои влегуваат во влезот на системот за препознавање, т.е. сите видови пречки и бучава. Во наједноставен случај, ви требаат филтрирајте. Оваа задача изгледа рутинска и лесна - на крајот на краиштата, различни сигнали се филтрираат и секој електронски инженер знае што да прави во таква ситуација. Сепак, ова мора да се направи многу внимателно и внимателно ако резултатот од препознавањето говор сака да ги исполни нашите очекувања.

Филтрирањето што моментално се користи овозможува да се отстрани, заедно со говорниот сигнал, надворешниот шум што го зема микрофонот и внатрешните својства на самиот говорен сигнал, што го отежнува неговото препознавање. Меѓутоа, многу покомплексен технички проблем се јавува кога пречки на анализираниот говорен сигнал е ... друг говорен сигнал, односно, на пример, гласни дискусии наоколу. Ова прашање во литературата е познато како т.н. Ова веќе бара употреба на сложени методи, т.н. деконволуција (отплеткување) на сигналот.

Проблемите со препознавање говор не завршуваат тука. Вреди да се сфати дека говорот носи многу различни видови информации. Човечкиот глас укажува на полот, возраста, различните карактери на сопственикот или состојбата на неговото здравје. Постои обемен оддел за биомедицинско инженерство кој се занимава со дијагноза на разни болести врз основа на карактеристичните акустични феномени кои се наоѓаат во говорниот сигнал.

Исто така, постојат апликации каде што главната цел на акустичната анализа на говорниот сигнал е да се идентификува говорникот или да се потврди дека тој е тој што тврди дека е (глас наместо клуч, лозинка или PUK код). Ова може да биде важно, особено за паметните технологии за градење.

Првата компонента на системот за препознавање говор е микрофон. Сепак, сигналот што го зема микрофонот обично останува од мала корист. Истражувањата покажуваат дека обликот и текот на звучниот бран во голема мера варираат во зависност од личноста, брзината на говорот, а делумно и расположението на соговорникот - додека во мала мера ја одразуваат самата содржина на изговорените наредби.

Затоа, сигналот мора правилно да се обработи. Модерната акустика, фонетика и компјутерски науки заедно обезбедуваат богат сет на алатки кои можат да се користат за обработка, анализа, препознавање и разбирање на говорниот сигнал. Динамичниот спектар на сигналот, т.н динамички спектрограми. Тие се прилично лесни за добивање, а говорот, претставен во форма на динамичен спектрограм, релативно лесно се препознава со помош на техники слични на оние што се користат при препознавање на слики.

Едноставните елементи на говорот (на пример, командите) може да се препознаат по едноставната сличност на цели спектрограми. На пример, речник за мобилен телефон активиран со глас содржи само неколку десетици до неколку стотици зборови и фрази, обично претходно наредени за да можат лесно и ефикасно да се идентификуваат. Ова е доволно за едноставни контролни задачи, но сериозно ја ограничува целокупната апликација. Системите изградени според шемата, по правило, поддржуваат само специфични звучници за кои гласовите се специјално обучени. Значи, ако има некој нов кој сака да го користи својот глас за да го контролира системот, најверојатно нема да биде прифатен.

Резултатот од оваа операција се нарекува спектрограм 2-W, односно дводимензионален спектар. Има уште една активност во овој блок на која вреди да се обрне внимание - сегментација. Општо земено, зборуваме за разделување на континуиран говорен сигнал на делови кои можат да се препознаат одделно. Само од овие индивидуални дијагнози се прави препознавање на целината. Оваа постапка е неопходна затоа што не е можно да се идентификува долг и сложен говор во еден потег. Веќе се напишани цели томови за тоа кои отсечки да се разликуваат во говорниот сигнал, така што сега нема да одлучуваме дали издвоените отсечки треба да бидат фонеми (звучни еквиваленти), слогови или можеби алофони.

Процесот на автоматско препознавање секогаш се однесува на некои карактеристики на објектите. Стотици групи на различни параметри се тестирани за говорниот сигнал.Говорниот сигнал има поделени на препознаени рамки и имајќи избрани карактеристикипри што овие рамки се претставени во процесот на препознавање, можеме да извршиме (за секоја рамка посебно) класификација, т.е. доделување идентификатор на рамката, кој ќе го претставува во иднина.

Следна фаза склопување на рамки во посебни зборови - најчесто врз основа на т.н. модел на имплицитни Марков модели (HMM-). Потоа доаѓа монтажата на зборовите комплетни реченици.

Сега можеме за момент да се вратиме на системот Alexa. Неговиот пример покажува повеќестепен процес на машинско „разбирање“ на една личност - поточно: команда дадена од него или поставено прашање.

Разбирањето на зборовите, разбирањето на значењето и разбирањето на намерите на корисникот се сосема различни работи.

Затоа, следниот чекор е работата на модулот NLP (), чија задача е препознавање на намери на корисникот, т.е. значењето на наредбата/прашањето во контекстот во кој е изречена. Ако се идентификува намерата, тогаш доделување на т.н. вештини и способности, односно специфичната карактеристика поддржана од паметниот асистент. Во случај на прашање за времето, се повикуваат изворите на временските податоци, кои останува да се обработат во говор (TTS - механизам). Како резултат на тоа, корисникот го слуша одговорот на поставеното прашање.

Глас? Графичка уметност? Или можеби и двете?

Повеќето познати современи системи за интеракција се засноваат на посредник наречен графички кориснички интерфејс (графички интерфејс). За жал, GUI не е најочигледниот начин за интеракција со дигитален производ. Ова бара корисниците прво да научат како да го користат интерфејсот и да се сеќаваат на овие информации со секоја наредна интеракција. Во многу ситуации, гласот е многу поудобен, бидејќи можете да комуницирате со VUI едноставно со разговор со уредот. Интерфејсот што не ги принудува корисниците да запомнат и запомнат одредени команди или методи на интеракција предизвикува помалку проблеми.

Се разбира, проширувањето на VUI не значи напуштање на повеќе традиционални интерфејси - напротив, ќе бидат достапни хибридни интерфејси кои комбинираат неколку начини на интеракција.

Гласовниот интерфејс не е погоден за сите задачи во мобилен контекст. Со него, ќе повикаме пријател кој вози автомобил, па дури и ќе му испратиме СМС, но проверката на најновите трансфери може да биде премногу тешко - поради количината на информации пренесени до системот () и генерирани од системот (системот). Како што сугерира Рејчел Хинман во нејзината книга Mobile Frontier, користењето на VUI станува најефективно кога се извршуваат задачи каде што количината на влезни и излезни информации е мала.

Паметен телефон поврзан на Интернет е удобен, но и незгоден (9). Секој пат кога корисникот сака да купи нешто или да користи нова услуга, тој мора да преземе друга апликација и да креира нова сметка. Овде е создадено поле за користење и развој на гласовни интерфејси. Наместо да ги принудуваат корисниците да инсталираат многу различни апликации или да креираат посебни сметки за секоја услуга, експертите велат дека VUI ќе го префрли товарот на овие гломазни задачи на гласовниот асистент со вештачка интелигенција. Ќе му биде погодно да извршува напорни активности. Ќе му даваме само наредби.

9. Гласовен интерфејс преку паметен телефон

Денес, повеќе од телефон и компјутер се поврзани на Интернет. На мрежата се поврзани и паметни термостати, светла, котлиња и многу други уреди интегрирани во IoT (10). Така, насекаде околу нас има безжични уреди кои ги исполнуваат нашите животи, но не сите од нив природно се вклопуваат во графичкиот кориснички интерфејс. Користењето на VUI ќе ви помогне лесно да ги интегрирате во нашата околина.

10. Гласовен интерфејс со Интернет на нештата

Креирањето гласовен кориснички интерфејс наскоро ќе стане клучна дизајнерска вештина. Ова е вистински проблем - потребата од имплементирање на гласовни системи ќе ве поттикне да се фокусирате повеќе на проактивен дизајн, односно да се обидувате да ги разберете првичните намери на корисникот, предвидувајќи ги неговите потреби и очекувања во секоја фаза од разговорот.

Гласот е ефикасен начин за внесување податоци - им овозможува на корисниците брзо да издаваат команди на системот по свои услови. Од друга страна, екранот обезбедува ефикасен начин за прикажување информации: им овозможува на системите истовремено да прикажуваат голема количина на информации, намалувајќи го товарот на меморијата на корисниците. Логично е дека нивното комбинирање во еден систем звучи охрабрувачки.

Паметните звучници како Amazon Echo и Google Home воопшто не нудат визуелен приказ. Значително подобрување на точноста на препознавање глас на умерени растојанија, тие овозможуваат работа без раце, што пак ја зголемува нивната флексибилност и ефикасност - тие се пожелни дури и за корисниците кои веќе имаат паметни телефони со гласовна контрола. Сепак, недостатокот на екран е огромно ограничување.

Може да се користат само звучни сигнали за да се информираат корисниците за можните команди, а читањето на излезот на глас станува досадно освен за најосновните задачи. Поставувањето тајмер со гласовна команда додека готвите е одлично, но не е потребно да ве натера да прашате колку време преостанува. Добивањето редовна временска прогноза станува тест за меморијата за корисникот, кој треба да слуша и апсорбира низа факти цела недела, наместо да ги подига од екранот на прв поглед.

Дизајнерите веќе имаат хибриден раствор, Echo Show (11), кој додаде екран за прикажување на основниот паметен звучник Echo. Ова во голема мера ја проширува функционалноста на опремата. Сепак, Echo Show сè уште е многу помалку способен да ги извршува основните функции кои долго време се достапни на паметните телефони и таблетите. Не може (сè уште) да сурфа на интернет, да прикажува прегледи или да ја прикажува содржината на количката за купување на Amazon, на пример.

Визуелниот приказ е инхерентно поефективен начин да им се обезбеди на луѓето мноштво информации отколку само звук. Дизајнирањето со гласовниот приоритет може многу да ја подобри гласовната интеракција, но на долг рок, произволното некористење на визуелното мени заради интеракција ќе биде како да се борите со едната рака врзана зад грб. Поради сложеноста што се наѕира на интелигентните интерфејси за глас и приказ од крај до крај, програмерите треба сериозно да размислат за хибриден пристап кон интерфејсите.

Зголемувањето на ефикасноста и брзината на системите за генерирање и препознавање говор овозможи да се користат во такви апликации и области како, на пример:

• воени (говорни команди во авиони или хеликоптери, на пример, F16 VISTA),

• автоматска транскрипција на текст (говор во текст),

• интерактивни информациски системи (Прајм говор, гласовни портали),

• мобилни уреди (телефони, паметни телефони, таблети),

• роботика (Cleverbot - ASR системи во комбинација со вештачка интелигенција),

• автомобилски (контрола без раце на компонентите на автомобилот, како што се Blue & Me),

• домашни апликации (паметни домашни системи).

Внимавајте на безбедноста!

Автомобилството, домашните апарати, системи за греење/ладење и безбедност на домот, како и мноштво домашни апарати почнуваат да користат гласовни интерфејси, често базирани на вештачка интелигенција. Во оваа фаза, податоците добиени од милиони разговори со машини се испраќаат до компјутерски облаци. Јасно е дека маркетерите се заинтересирани за нив. И не само тие.

Неодамнешниот извештај од безбедносните експерти на Symantec препорачува корисниците на гласовни команди да не ги контролираат безбедносните карактеристики како што се бравите на вратите, а камоли домашните безбедносни системи. Истото важи и за складирање лозинки или доверливи информации. Безбедноста на вештачката интелигенција и паметните производи сè уште не е доволно проучена.

Кога уредите низ домот го слушаат секој збор, ризикот од хакирање и злоупотреба на системот станува исклучително важен проблем. Ако напаѓачот добие пристап до локалната мрежа или нејзините поврзани адреси на е-пошта, поставките на паметниот уред може да се променат или ресетираат на фабрички поставки, што ќе резултира со губење на вредни информации и бришење на корисничката историја.

Со други зборови, безбедносните професионалци се плашат дека вештачката интелигенција управувана од глас и VUI сè уште не е доволно паметна за да нè заштити од потенцијални закани и да ни ја држи устата затворена кога некој странец бара нешто.