Antall applikasjoner og viktigheten av talegrensesnitt vokser raskt

Innhold

store fire
Amerikanerne vil kjøpe
Vask, bake, rydde!
Gammelt konsept. Har hennes tid endelig kommet?
teknisk vanskelig spørsmål
Stemme? Grafisk kunst? Eller kanskje begge deler?
Se opp for sikkerheten!

En amerikansk familie i Portland, Oregon fikk nylig vite at Alexs stemmeassistent tok opp deres private chatter og sendte dem til en venn. Eieren av huset, kalt Danielle av media, fortalte journalister at hun "aldri ville koble til den enheten igjen fordi hun ikke kan stole på."

Alexa, levert av Echo (1)-høyttalere og andre gadgets i titalls millioner amerikanske hjem, starter opptaket når den hører navnet eller "kalleordet" snakket av brukeren. Dette betyr at selv om ordet «Alexa» er nevnt i en TV-annonse, kan enheten starte opptaket. Det var akkurat det som skjedde i dette tilfellet, sier Amazon, maskinvaredistributøren.

"Resten av samtalen ble tolket av stemmeassistenten som en kommando om å sende en melding," sa selskapet i en uttalelse. "På et tidspunkt spurte Alexa høyt: "Til hvem?" Fortsettelsen av familiesamtalen om tregulv burde ha blitt oppfattet av maskinen som et element på kundens kontaktliste.» Det mener i hvert fall Amazon. Dermed er oversettelsen redusert til en rekke ulykker.

Angsten består imidlertid. For av en eller annen grunn, i et hus hvor vi fortsatt følte oss vel, må vi gå inn i en slags "stemmemodus", se hva vi sier, hva TV-en sender og selvfølgelig hva denne nye høyttaleren har på brystet. skuffer sier. oss.

Derimot, Til tross for teknologifeil og bekymringer om personvern, med økningen i popularitet til enheter som Amazon Echo, begynner folk å bli vant til ideen om å samhandle med datamaskiner ved å bruke stemmen..

Som Werner Vogels, CTO for Amazon, bemerket under sin AWS re:Invent-sesjon sent i 2017, har teknologien så langt begrenset vår evne til å samhandle med datamaskiner. Vi skriver inn nøkkelord i Google ved hjelp av tastaturet, da dette fortsatt er den vanligste og enkleste måten å legge inn informasjon på maskinen.

sa Vogels. -

store fire

Når vi brukte søkemotoren Google på telefonen, la vi sannsynligvis merke til et mikrofonskilt med en samtale om å snakke for lenge siden. Dette Google nå (2), som kan brukes til å diktere et søk, skrive inn en melding med stemmen osv. De siste årene har Google, Apple og Amazon forbedret seg betydelig stemmegjenkjenningsteknologi. Stemmeassistenter som Alexa, Siri og Google Assistant tar ikke bare opp stemmen din, men forstår også hva du sier til dem og svarer på spørsmål.

Google Nå er tilgjengelig gratis for alle Android-brukere. Applikasjonen kan for eksempel sette en alarm, sjekke værmeldingen og sjekke ruten på Google maps. Samtaleutvidelse av Google Nå-stater Google Assistant () – virtuell assistanse til brukeren av utstyret. Den er hovedsakelig tilgjengelig på mobile og smarte hjemmeenheter. I motsetning til Google Nå kan den delta i en toveis utveksling. Assistenten debuterte i mai 2016 som en del av Googles meldingsapp Allo, så vel som i Google Home-talehøyttaleren (3).

3. Google Home

IOS-systemet har også sin egen virtuelle assistent, Siri, som er et program som følger med Apples operativsystemer iOS, watchOS, tvOS homepod og macOS. Siri debuterte med iOS 5 og iPhone 4s i oktober 2011 på Let's Talk iPhone-konferansen.

Programvaren er basert på et samtalegrensesnitt: den gjenkjenner brukerens naturlige tale (med iOS 11 er det også mulig å legge inn kommandoer manuelt), svarer på spørsmål og fullfører oppgaver. Takket være introduksjonen av maskinlæring, en assistent over tid analyserer personlige preferanser brukeren for å gi mer relevante resultater og anbefalinger. Siri krever en konstant Internett-tilkobling - de viktigste informasjonskildene her er Bing og Wolfram Alpha. iOS 10 introduserte støtte for tredjepartsutvidelser.

Nok en av de fire store Cortana. Det er en intelligent personlig assistent laget av Microsoft. Det støttes på Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android og iOS-plattformer. Cortana ble først introdusert på Microsoft Build Developer Conference i april 2014 i San Francisco. Navnet på programmet kommer fra navnet på en karakter fra Halo-spillserien. Cortana er tilgjengelig på engelsk, italiensk, spansk, fransk, tysk, kinesisk og japansk.

Brukere av det allerede nevnte programmet Alexa de må også vurdere språkbegrensninger - den digitale assistenten snakker kun engelsk, tysk, fransk og japansk.

Amazon Virtual Assistant ble først brukt i Amazon Echo og Amazon Echo Dot smarthøyttalere utviklet av Amazon Lab126. Den muliggjør stemmeinteraksjon, musikkavspilling, oppretting av gjøremålslister, alarminnstilling, podcaststrømming, lydbokavspilling og sanntids vær, trafikk, sport og annen nyhetsinformasjon som nyheter (4). Alexa kan kontrollere flere smarte enheter for å lage et hjemmeautomatiseringssystem. Den kan også brukes til å gjøre praktisk shopping i Amazon-butikken.

4. Hva brukere bruker ekko til (ifølge forskning)

Brukere kan forbedre Alexa-opplevelsen ved å installere Alexa «skills» (), tilleggsfunksjoner utviklet av tredjeparter, oftere referert til som apper som vær- og lydprogrammer i andre innstillinger. De fleste Alexa-enheter lar deg aktivere din virtuelle assistent med et vekkepassord, kalt .

Amazon dominerer definitivt markedet for smarthøyttalere i dag (5). IBM, som introduserte en ny tjeneste i mars 2018, prøver å komme inn på topp fire Watsons assistent, designet for bedrifter som ønsker å lage sine egne systemer med virtuelle assistenter med stemmestyring. Hva er fordelen med IBM-løsningen? Ifølge selskapets representanter, først og fremst på mye større muligheter for personalisering og personvern.

For det første er Watson Assistant ikke merket. Bedrifter kan lage sine egne løsninger på denne plattformen og merke dem med sitt eget merke.

For det andre kan de trene hjelpesystemene sine ved å bruke sine egne datasett, noe IBM sier gjør det enklere å legge til funksjoner og kommandoer til det systemet enn andre VUI-teknologier (stemmebrukergrensesnitt).

For det tredje gir ikke Watson Assistant IBM informasjon om brukeraktivitet – utviklere av løsninger på plattformen kan bare holde verdifull data for seg selv. I mellomtiden bør alle som bygger enheter, for eksempel med Alexa, være klar over at deres verdifulle data vil havne på Amazon.

Watson Assistant har allerede flere implementeringer. Systemet ble brukt for eksempel av Harman, som laget en stemmeassistent for konseptbilen Maserati (6). På flyplassen i München driver en IBM-assistent en Pepper-robot for å hjelpe passasjerene med å bevege seg rundt. Det tredje eksemplet er Chameleon Technologies, der stemmeteknologi brukes i en smarthusmåler.

6. Watson Assistant i en Maserati konseptbil

Det er verdt å legge til at den underliggende teknologien her heller ikke er ny. Watson Assistant inkluderer krypteringsmuligheter for eksisterende IBM-produkter, Watson Conversation og Watson Virtual Agent, samt API-er for språkanalyse og chat.

Amazon er ikke bare ledende innen smart stemmeteknologi, men gjør det til en direkte virksomhet. Noen selskaper har imidlertid eksperimentert med Echo-integrasjon mye tidligere. Sisense, et selskap i BI- og analyseindustrien, introduserte Echo-integrasjonen i juli 2016. På sin side bestemte startup Roxy seg for å lage sin egen stemmestyrte programvare og maskinvare for gjestfrihetsindustrien. Tidligere i år introduserte Synqq en notatapp som bruker tale- og naturlig språkbehandling for å legge til notater og kalenderoppføringer uten å måtte skrive dem på et tastatur.

Alle disse småbedriftene har høye ambisjoner. Mest av alt lærte de imidlertid at ikke alle brukere ønsker å overføre dataene sine til Amazon, Google, Apple eller Microsoft, som er de viktigste aktørene i å bygge talekommunikasjonsplattformer.

Amerikanerne vil kjøpe

I 2016 utgjorde talesøk 20 % av alle Googles mobilsøk. Folk som bruker denne teknologien på daglig basis, nevner dens bekvemmelighet og multitasking blant de største fordelene. (for eksempel muligheten til å bruke en søkemotor mens du kjører bil).

Visiongain-analytikere anslår den nåværende markedsverdien av smarte digitale assistenter til 1,138 milliarder dollar.Det er flere og flere slike mekanismer. Ifølge Gartner allerede innen utgangen av 2018 30 % av våre interaksjoner med teknologi vil være gjennom samtaler med talesystemer.

Det britiske analysefirmaet IHS Markit anslår at markedet for AI-drevne digitale assistenter vil nå 4 milliarder enheter innen utgangen av dette året, og tallet kan stige til 2020 milliarder innen 7.

I følge rapporter fra eMarketer og VoiceLabs brukte 2017 millioner amerikanere stemmestyring minst en gang i måneden i 35,6. Dette betyr en økning på nesten 130 % fra året før. Det digitale assistentmarkedet alene forventes å vokse med 2018 % i 23. Dette betyr at du allerede vil bruke dem. 60,5 millioner amerikanere, som vil resultere i konkrete penger til produsentene deres. RBC Capital Markets anslår at Alexa-grensesnittet vil generere opptil 2020 milliarder dollar i inntekter for Amazon innen 10.

Vask, bake, rydde!

Stemmegrensesnitt går stadig mer dristig inn på markedet for husholdningsapparater og forbrukerelektronikk. Dette kunne man se allerede under fjorårets IFA 2017-utstilling. Det amerikanske selskapet Neato Robotics introduserte for eksempel en robotstøvsuger som kobles til en av flere smarthusplattformer, inkludert Amazon Echo-systemet. Ved å snakke med Echo-smarthøyttaleren kan du instruere maskinen til å rengjøre hele huset til bestemte tider på dagen eller natten.

Andre stemmeaktiverte produkter ble vist frem på showet, alt fra smart-TVer solgt under Toshiba-merket av det tyrkiske selskapet Vestel til oppvarmede tepper av det tyske selskapet Beurer. Mange av disse elektroniske enhetene kan også aktiveres eksternt ved hjelp av smarttelefoner.

Men ifølge Bosch-representanter er det for tidlig å si hvilket av hjemmeassistentalternativene som blir dominerende. På IFA 2017 viste en tysk teknisk gruppe frem vaskemaskiner (7), ovner og kaffemaskiner som kobles til Echo. Bosch ønsker også at enhetene deres skal være kompatible med Google og Apples stemmeplattformer i fremtiden.

7. Bosch vaskemaskin som kobles til Amazon Echo

Selskaper som Fujitsu, Sony og Panasonic utvikler sine egne AI-baserte stemmeassistentløsninger. Sharp legger denne teknologien til ovner og små roboter som kommer inn på markedet. Nippon Telegraph & Telephone ansetter maskinvare- og leketøysprodusenter for å tilpasse et stemmestyrt kunstig intelligenssystem.

Gammelt konsept. Har hennes tid endelig kommet?

Faktisk har konseptet Voice User Interface (VUI) eksistert i flere tiår. Alle som så Star Trek eller 2001: A Space Odyssey for år siden, forventet sannsynligvis at rundt år 2000 ville vi alle kontrollere datamaskiner med stemmene våre. Dessuten var det ikke bare science fiction-forfattere som så potensialet i denne typen grensesnitt. I 1986 spurte Nielsen-forskere IT-fagfolk om hva de trodde ville være den største endringen i brukergrensesnitt innen år 2000. De pekte oftest på utviklingen av talegrensesnitt.

Det er grunn til å håpe på en slik løsning. Verbal kommunikasjon er tross alt den mest naturlige måten for folk å bevisst utveksle tanker, så å bruke den til menneske-maskin-interaksjon virker som den beste løsningen så langt.

En av de første VUI-ene, kalt skoeske, ble opprettet på begynnelsen av 60-tallet av IBM. Det var forløperen til dagens stemmegjenkjenningssystemer. Utviklingen av VUI-enheter var imidlertid begrenset av grensene for datakraft. Å analysere og tolke menneskelig tale i sanntid krever mye innsats, og det tok mer enn femti år å komme til det punktet hvor det faktisk ble mulig.

Enheter med stemmegrensesnitt begynte å vises i masseproduksjon på midten av 90-tallet, men ble ikke populær. Den første telefonen med stemmestyring (oppringing) var Philips Sparkutgitt i 1996. Denne innovative og brukervennlige enheten var imidlertid ikke fri for teknologiske begrensninger.

Andre telefoner utstyrt med former for talegrensesnitt (skapt av selskaper som RIM, Samsung eller Motorola) kommer jevnlig på markedet, slik at brukere kan ringe med tale eller sende tekstmeldinger. Alle av dem krevde imidlertid å huske spesifikke kommandoer og uttale dem i en tvungen, kunstig form, tilpasset egenskapene til enhetene på den tiden. Dette genererte et stort antall feil, som igjen førte til brukermisnøye.

Imidlertid går vi nå inn i en ny æra innen databehandling, der fremskritt innen maskinlæring og utvikling av kunstig intelligens låser opp potensialet til samtale som en ny måte å samhandle med teknologi (8). Antall enheter som støtter stemmeinteraksjon har blitt en viktig faktor som har hatt stor innvirkning på utviklingen av VUI. I dag eier nesten 1/3 av verdens befolkning allerede smarttelefoner som kan brukes til denne typen atferd. Det ser ut til at de fleste brukere endelig er klare til å tilpasse stemmegrensesnittene sine.

8. Moderne historie med utviklingen av talegrensesnittet

Men før vi fritt kan snakke med en datamaskin, slik heltene i A Space Odyssey gjorde, må vi overvinne en rekke problemer. Maskiner er fortsatt ikke så gode til å håndtere språklige nyanser. I tillegg mange mennesker føler seg fortsatt ukomfortable med å gi talekommandoer til en søkemotor.

Statistikk viser at stemmeassistenter primært brukes hjemme eller blant nære venner. Ingen av de intervjuede innrømmet å ha brukt talesøk på offentlige steder. Imidlertid vil denne blokaden sannsynligvis forsvinne med spredningen av denne teknologien.

teknisk vanskelig spørsmål

Problemet som systemer (ASR) står overfor er å trekke ut nyttige data fra et talesignal og assosiere det med et bestemt ord som har en viss betydning for en person. Lydene som produseres er forskjellige hver gang.

Talesignalvariabilitet er dens naturlige egenskap, takket være at vi for eksempel gjenkjenner en aksent eller intonasjon. Hvert element i talegjenkjenningssystemet har en spesifikk oppgave. Basert på det behandlede signalet og dets parametere, lages en akustisk modell, som er knyttet til språkmodellen. Gjenkjenningssystemet kan fungere på grunnlag av et lite eller stort antall mønstre, som bestemmer størrelsen på ordforrådet det fungerer med. Det kan de være små ordbøker i tilfelle av systemer som gjenkjenner individuelle ord eller kommandoer, samt store databaser som inneholder ekvivalenten til språksettet og tar hensyn til språkmodellen (grammatikken).

Problemer med stemmegrensesnitt i utgangspunktet forstå tale riktig, hvor for eksempel hele grammatiske sekvenser ofte er utelatt, forekommer språklige og fonetiske feil, feil, utelatelser, talefeil, homonymer, uberettigede repetisjoner osv. Alle disse ACP-systemene må fungere raskt og pålitelig. Det er i hvert fall forventningene.

Kilden til vanskeligheter er også andre akustiske signaler enn den gjenkjente talen som kommer inn i gjenkjenningssystemets inngang, dvs. alle typer forstyrrelser og støy. I det enkleste tilfellet trenger du dem filtrere ut. Denne oppgaven virker rutinemessig og enkel - tross alt filtreres ulike signaler og enhver elektronikkingeniør vet hva de skal gjøre i en slik situasjon. Dette må imidlertid gjøres svært nøye og forsiktig hvis resultatet av talegjenkjenning skal oppfylle våre forventninger.

Filtreringen som brukes i dag gjør det mulig å fjerne, sammen med talesignalet, den eksterne støyen som fanges opp av mikrofonen og de interne egenskapene til selve talesignalet, som gjør det vanskelig å gjenkjenne det. Imidlertid oppstår et mye mer komplekst teknisk problem når interferensen til det analyserte talesignalet er ... et annet talesignal, det vil si for eksempel høylytte diskusjoner rundt omkring. Dette spørsmålet er kjent i litteraturen som det såkalte . Dette krever allerede bruk av komplekse metoder, såkalte. dekonvolusjon (nøste opp) signalet.

Problemene med talegjenkjenning slutter ikke der. Det er verdt å innse at tale inneholder mange forskjellige typer informasjon. Den menneskelige stemmen antyder kjønn, alder, forskjellige karakterer til eieren eller helsetilstanden hans. Det er en omfattende avdeling for biomedisinsk ingeniørfag som arbeider med diagnostisering av ulike sykdommer basert på de karakteristiske akustiske fenomenene som finnes i talesignalet.

Det finnes også applikasjoner hvor hovedformålet med akustisk analyse av et talesignal er å identifisere taleren eller verifisere at han er den han utgir seg for å være (stemme i stedet for nøkkel, passord eller PUK-kode). Dette kan være viktig, spesielt for smartbyggteknologier.

Den første komponenten i et talegjenkjenningssystem er микрофон. Imidlertid er signalet som fanges opp av mikrofonen vanligvis til liten nytte. Studier viser at lydbølgens form og forløp varierer mye avhengig av person, talehastighet, og til dels stemningen til samtalepartneren – mens de i liten grad gjenspeiler selve innholdet i de talte kommandoene.

Derfor må signalet behandles korrekt. Moderne akustikk, fonetikk og informatikk gir sammen et rikt sett med verktøy som kan brukes til å behandle, analysere, gjenkjenne og forstå et talesignal. Det dynamiske spekteret til signalet, den såkalte dynamiske spektrogrammer. De er ganske enkle å få tak i, og tale presentert i form av et dynamisk spektrogram er relativt lett å gjenkjenne ved å bruke teknikker som ligner på de som brukes i bildegjenkjenning.

Enkle elementer av tale (for eksempel kommandoer) kan gjenkjennes av den enkle likheten til hele spektrogrammer. For eksempel inneholder en stemmeaktivert mobiltelefonordbok bare noen få tiere til noen få hundre ord og setninger, vanligvis forhåndsstablet slik at de enkelt og effektivt kan identifiseres. Dette er tilstrekkelig for enkle kontrolloppgaver, men det begrenser den totale applikasjonen sterkt. Systemer bygget i henhold til ordningen støtter som regel bare spesifikke høyttalere som stemmer er spesielt trent for. Så hvis det er noen nye som vil bruke stemmen sin til å kontrollere systemet, vil de mest sannsynlig ikke bli akseptert.

Resultatet av denne operasjonen kalles spektrogram 2-W, det vil si et todimensjonalt spektrum. Det er en annen aktivitet i denne blokken som er verdt å være oppmerksom på - segmentering. Generelt sett snakker vi om å dele opp et kontinuerlig talesignal i deler som kan gjenkjennes separat. Det er først fra disse enkeltdiagnosene at erkjennelsen av helheten gjøres. Denne prosedyren er nødvendig fordi det ikke er mulig å identifisere en lang og kompleks tale på en gang. Hele bind er allerede skrevet om hvilke segmenter som skal skilles i et talesignal, så vi skal ikke bestemme nå om de utmerkede segmentene skal være fonemer (lydekvivalenter), stavelser eller kanskje allofoner.

Prosessen med automatisk gjenkjenning refererer alltid til noen funksjoner ved objekter. Hundrevis av sett med forskjellige parametere er testet for talesignalet.Talesignalet har delt inn i gjenkjente rammer og har utvalgte funksjonerhvorved disse rammene presenteres i gjenkjenningsprosessen, kan vi utføre (for hver ramme separat) klassifisering, dvs. tilordne en identifikator til rammen, som vil representere den i fremtiden.

Den neste fasen sammenstilling av rammer til separate ord - oftest basert på den såkalte. modell av implisitte Markov-modeller (HMM-). Så kommer montasjen av ord hele setninger.

Vi kan nå gå tilbake til Alexa-systemet et øyeblikk. Eksemplet hans viser en flertrinnsprosess med maskinell "forståelse" av en person - mer presist: en kommando gitt av ham eller et spørsmål stilt.

Å forstå ord, forstå mening og forstå brukerintensjon er helt forskjellige ting.

Derfor er neste trinn arbeidet med NLP-modulen (), oppgaven som er gjenkjennelse av brukerens hensikter, dvs. betydningen av kommandoen/spørsmålet i konteksten den ble uttalt i. Hvis intensjonen er identifisert, da tildeling av såkalte ferdigheter og evner, dvs. den spesifikke funksjonen som støttes av smartassistenten. Ved spørsmål om været kalles værdatakilder, som gjenstår å behandle til tale (TTS - mekanisme). Som et resultat hører brukeren svaret på spørsmålet som stilles.

Stemme? Grafisk kunst? Eller kanskje begge deler?

De fleste kjente moderne interaksjonssystemer er basert på et mellomledd kalt grafisk brukergrensesnitt (grafisk grensesnitt). Dessverre er ikke GUI den mest åpenbare måten å samhandle med et digitalt produkt på. Dette krever at brukerne først lærer hvordan de bruker grensesnittet og husker denne informasjonen med hver påfølgende interaksjon. I mange situasjoner er stemme mye mer praktisk, fordi du kan samhandle med VUI ganske enkelt ved å snakke til enheten. Et grensesnitt som ikke tvinger brukere til å huske og huske bestemte kommandoer eller interaksjonsmetoder, forårsaker færre problemer.

Utvidelsen av VUI betyr selvsagt ikke å forlate mer tradisjonelle grensesnitt – snarere vil hybridgrensesnitt være tilgjengelig som kombinerer flere måter å samhandle på.

Stemmegrensesnittet egner seg ikke for alle oppgaver i mobilsammenheng. Med det vil vi ringe en venn som kjører bil, og til og med sende ham en SMS, men å sjekke de siste overføringene kan være for vanskelig - på grunn av mengden informasjon som overføres til systemet () og genereres av systemet (systemet). Som Rachel Hinman foreslår i sin bok Mobile Frontier, blir bruk av VUI mest effektivt når du utfører oppgaver der mengden input og output er liten.

En smarttelefon koblet til Internett er praktisk, men også upraktisk (9). Hver gang en bruker vil kjøpe noe eller bruke en ny tjeneste, må de laste ned en annen app og opprette en ny konto. Her er det laget et felt for bruk og utvikling av talegrensesnitt. I stedet for å tvinge brukere til å installere mange forskjellige apper eller opprette separate kontoer for hver tjeneste, sier eksperter at VUI vil flytte byrden av disse tungvinte oppgavene til en AI-drevet stemmeassistent. Det vil være praktisk for ham å utføre anstrengende aktiviteter. Vi vil bare gi ham ordre.

9. Stemmegrensesnitt via smarttelefon

I dag er mer enn bare en telefon og en datamaskin koblet til Internett. Smarte termostater, lys, vannkoker og mange andre IoT-integrerte enheter er også koblet til nettverket (10). Det er altså trådløse enheter rundt oss som fyller livene våre, men ikke alle passer naturlig inn i det grafiske brukergrensesnittet. Ved å bruke VUI vil du enkelt integrere dem i miljøet vårt.

10. Stemmegrensesnitt med tingenes internett

Å lage et stemmebrukergrensesnitt vil snart bli en viktig designerferdighet. Dette er et reelt problem - behovet for å implementere stemmesystemer vil oppmuntre deg til å fokusere mer på proaktiv design, det vil si å prøve å forstå de første intensjonene til brukeren, forutse deres behov og forventninger i hvert trinn av samtalen.

Stemme er en effektiv måte å legge inn data på – den lar brukere raskt gi kommandoer til systemet på deres egne premisser. På den annen side gir skjermen en effektiv måte å vise informasjon på: den lar systemer vise en stor mengde informasjon samtidig, noe som reduserer belastningen på brukernes hukommelse. Det er logisk at å kombinere dem til ett system høres oppmuntrende ut.

Smarthøyttalere som Amazon Echo og Google Home tilbyr ikke en visuell skjerm i det hele tatt. De forbedrer nøyaktigheten av stemmegjenkjenning betydelig på moderate avstander, og tillater håndfri betjening, noe som igjen øker deres fleksibilitet og effektivitet - de er ønskelige selv for brukere som allerede har smarttelefoner med stemmestyring. Imidlertid er mangelen på en skjerm en enorm begrensning.

Bare pip kan brukes til å informere brukere om mulige kommandoer, og å lese utdataene høyt blir kjedelig bortsett fra de mest grunnleggende oppgavene. Det er flott å stille inn en tidtaker med en talekommando mens du lager mat, men det er ikke nødvendig å spørre hvor mye tid som er igjen. Å få en vanlig værmelding blir en minnetest for brukeren, som må lytte og absorbere en rekke fakta hele uken, i stedet for å plukke dem opp fra skjermen med et øyeblikk.

Designerne har allerede hybrid løsning, Echo Show (11), som la til en skjerm til den grunnleggende Echo-smarthøyttaleren. Dette utvider funksjonaliteten til utstyret kraftig. Imidlertid er Echo Show fortsatt mye mindre i stand til å utføre de grunnleggende funksjonene som lenge har vært tilgjengelige på smarttelefoner og nettbrett. Den kan for eksempel ikke (ennå) surfe på nettet, vise anmeldelser eller vise innholdet i en Amazon-handlekurv.

En visuell visning er iboende en mer effektiv måte å gi folk et vell av informasjon enn bare lyd. Å designe med stemmeprioritet kan forbedre stemmeinteraksjonen betraktelig, men i det lange løp vil det å ikke bruke den visuelle menyen for samhandlingens skyld være som å slåss med en hånd bundet bak ryggen. På grunn av den truende kompleksiteten til ende-til-ende intelligente stemme- og skjermgrensesnitt, bør utviklere seriøst vurdere en hybrid tilnærming til grensesnitt.

Å øke effektiviteten og hastigheten til talegenererings- og gjenkjenningssystemer har gjort det mulig å bruke dem i slike applikasjoner og områder som for eksempel:

• militær (stemmekommandoer i fly eller helikoptre, for eksempel F16 VISTA),

• automatisk teksttranskripsjon (tale til tekst),

• interaktive informasjonssystemer (Prime Speech, taleportaler),

• mobile enheter (telefoner, smarttelefoner, nettbrett),

• robotikk (Cleverbot - ASR-systemer kombinert med kunstig intelligens),

• bil (håndfri kontroll av bilkomponenter, som Blue & Me),

• hjemmeapplikasjoner (smarthjemsystemer).

Se opp for sikkerheten!

Bilindustri, husholdningsapparater, oppvarming/kjøling og hjemmesikkerhetssystemer, og en rekke husholdningsapparater begynner å bruke talegrensesnitt, ofte AI-basert. På dette stadiet sendes data innhentet fra millioner av samtaler med maskiner til dataskyer. Det er tydelig at markedsførere er interessert i dem. Og ikke bare dem.

En fersk rapport fra Symantecs sikkerhetseksperter anbefaler at stemmekommandobrukere ikke kontrollerer sikkerhetsfunksjoner som dørlåser, enn si hjemmesikkerhetssystemer. Det samme gjelder lagring av passord eller konfidensiell informasjon. Sikkerheten til kunstig intelligens og smarte produkter er ennå ikke tilstrekkelig studert.

Når enheter i hele hjemmet lytter til hvert ord, blir risikoen for systemhakking og misbruk en stor bekymring. Hvis en angriper får tilgang til det lokale nettverket eller dets tilknyttede e-postadresser, kan smartenhetens innstillinger endres eller tilbakestilles til fabrikkinnstillinger, noe som vil føre til tap av verdifull informasjon og sletting av brukerhistorikk.

Sikkerhetseksperter frykter med andre ord at stemme- og VUI-drevet kunstig intelligens ennå ikke er smart nok til å beskytte oss mot potensielle trusler og holde kjeft når en fremmed ber om noe.