Het aantal toepassingen en het belang van spraakinterfaces groeit snel

Inhoud

Grote vier
Amerikanen willen kopen
Wassen, bakken, schoonmaken!
Oud begrip. Is haar tijd eindelijk gekomen?
Technisch moeilijke vraag
Stem? Grafische kunst? Of misschien allebei?
Let op je veiligheid!

Een Amerikaans gezin in Portland, Oregon hoorde onlangs dat de stemassistent Alexa hun privéchats had opgenomen en naar een vriend had gestuurd. De eigenaar van het huis, door de media Danielle genoemd, vertelde verslaggevers dat ze “dit apparaat nooit meer zou aansluiten omdat ze niet te vertrouwen is.”

Alexa, geleverd door Echo-luidsprekers (1) en andere gadgets in tientallen miljoenen Amerikaanse huizen, begint met opnemen nadat de gebruiker de naam of het 'roepwoord' heeft gehoord. Dit betekent dat zelfs als het woord "Alexa" in een tv-advertentie wordt vermeld, het apparaat kan beginnen met opnemen. Dat is precies wat er in dit geval gebeurde, zegt hardwaredistributeur Amazon.

“De rest van het gesprek werd door de stemassistent geïnterpreteerd als een commando om een bericht te sturen”, aldus het bedrijf in een verklaring. "Op een gegeven moment vroeg Alexa luid: 'Wie?' Het voortzetten van een familiegesprek over hardhouten vloeren had door de machine moeten worden gezien als een item op de contactlijst van de klant.” Dat denkt Amazon tenminste. De vertaling komt dus neer op een reeks ongelukken.

De ongerustheid blijft echter bestaan. Omdat we om de een of andere reden in een huis waar we ons nog steeds op ons gemak voelden, een soort ‘stemmodus’ moeten introduceren, moeten kijken naar wat we zeggen, wat de tv uitzendt en natuurlijk wat deze nieuwe luidspreker op de borst van lades zegt. ons.

hoe dan ook, Ondanks onvolmaakte technologie en zorgen over privacy, beginnen mensen met de groeiende populariteit van apparaten als de Amazon Echo te wennen aan het idee om met hun stem met computers te communiceren..

Zoals Werner Vogels, de CTO van Amazon, opmerkte tijdens zijn AWS re:Invent-sessie eind 2017, heeft technologie tot nu toe de manier beperkt waarop we met computers kunnen communiceren. We typen trefwoorden in Google met behulp van het toetsenbord, omdat dit nog steeds de meest gebruikelijke en gemakkelijkste manier is om informatie in een machine in te voeren.

zei Vogels. -

Grote vier

Toen we de Google-zoekmachine aan de telefoon gebruikten, hebben we daar waarschijnlijk al lang geleden een microfoonbord opgemerkt met een uitnodiging om te spreken. Dit Google nu (2), waarmee je een zoekopdracht kunt dicteren, een bericht kunt inspreken, etc. De afgelopen jaren hebben Google, Apple en Amazon de technologieën voor stemherkenning. Stemassistenten als Alexa, Siri en Google Assistant nemen niet alleen je stem op, maar begrijpen ook wat je tegen ze zegt en beantwoorden vragen.

Google Now is gratis beschikbaar voor alle Android-gebruikers. De applicatie kan bijvoorbeeld een alarm instellen, de weersverwachting en routes op Google maps bekijken. Google Now Conversational State-extensie Google Assistent() – virtuele assistentie aan de gebruiker van de apparatuur. Het is voornamelijk beschikbaar op mobiele en smarthome-apparaten. In tegenstelling tot Google Now kan het deelnemen aan een uitwisseling in twee richtingen. De assistent debuteerde in mei 2016 als onderdeel van de Google-berichtenapp Allo, evenals in de Google Home-spraakluidspreker (3).

3. Google-startpagina

IOS heeft ook een eigen virtuele assistent, Siri, dat wil zeggen een programma dat is opgenomen in de Apple-besturingssystemen - iOS, watchOS, tvOS homepod en macOS. Siri debuteerde met iOS 5 en de iPhone 4s in oktober 2011 tijdens de Let's Talk iPhone-conferentie.

De software is gebaseerd op een conversatie-interface: het herkent de natuurlijke spraak van de gebruiker (met iOS 11 is het ook mogelijk om handmatig commando's in te voeren), beantwoordt vragen en voltooit taken. Dankzij de introductie van machine learning, een assistent na verloop van tijd analyseert persoonlijke voorkeuren gebruiker om relevantere resultaten en aanbevelingen te bieden. Siri vereist een constante internetverbinding - de belangrijkste informatiebronnen hier zijn Bing en Wolfram Alpha. iOS 10 introduceert ondersteuning voor extensies van derden.

Nog één van de grote vier Cortana. Het is een intelligente persoonlijke assistent gemaakt door Microsoft. Het wordt ondersteund op Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android- en iOS-platforms. Cortana werd voor het eerst geïntroduceerd tijdens de Microsoft Build Developer-conferentie in april 2014 in San Francisco. De naam van het programma komt van de naam van een personage uit de Halo-gameserie. Cortana is beschikbaar in het Engels, Italiaans, Spaans, Frans, Duits, Chinees en Japans.

Gebruikers van het reeds genoemde programma Alexa ze moeten ook rekening houden met taalbeperkingen: de digitale assistent spreekt alleen Engels, Duits, Frans en Japans.

De virtuele assistent van Amazon werd voor het eerst gebruikt in de slimme luidsprekers Amazon Echo en Amazon Echo Dot, ontwikkeld door Amazon Lab126. Het biedt spraakinteractie, het afspelen van muziek, het maken van takenlijsten, het instellen van alarmen, het streamen van podcasts, het afspelen van audioboeken en het verstrekken van realtime informatie over weer, verkeer, sport en andere nieuwsinformatie zoals nieuws (4). Alexa kan meerdere slimme apparaten bedienen om een domoticasysteem te creëren. Het kan ook worden gebruikt om gemakkelijke aankopen bij Amazon te doen.

4. Waarom gebruikers Echo gebruiken (volgens onderzoek)

Gebruikers kunnen de mogelijkheden van Alexa verbeteren door Alexa 'skills' te installeren, extra functies die zijn ontwikkeld door derden, beter bekend als apps, zoals weer- en audio-apps in andere instellingen. Met de meeste Alexa-apparaten kunt u de virtuele assistent activeren met behulp van een ontwaakwachtwoord, een zogenaamd ontwaakwachtwoord.

Amazon domineert vandaag duidelijk de markt voor slimme luidsprekers (5). IBM, dat de nieuwe dienst in maart 2018 introduceerde, probeert de top vier binnen te dringen, Watsons assistent, ontworpen voor bedrijven die zelf stemgestuurde virtuele assistent-systemen willen creëren. Wat is het voordeel van de IBM-oplossing? Volgens bedrijfsvertegenwoordigers in de eerste plaats over veel grotere mogelijkheden voor personalisatie en privacybescherming.

Ten eerste heeft Watson Assistant geen opgelegd merk. Bedrijven kunnen op dit platform hun eigen oplossingen creëren en deze voorzien van hun eigen merk.

Ten tweede kunnen ze hun ondersteunende systemen trainen met behulp van hun eigen datasets, wat volgens IBM het gemakkelijker maakt om functies en opdrachten aan dat systeem toe te voegen dan andere VUI-technologieën (voice user interface).

Ten derde verstrekt Watson Assistant IBM geen informatie over gebruikersactiviteiten - ontwikkelaars van oplossingen op het platform kunnen waardevolle gegevens alleen voor zichzelf houden. Ondertussen moet iedereen die apparaten bouwt met behulp van Alexa er rekening mee houden dat hun waardevolle gegevens uiteindelijk bij Amazon terecht zullen komen.

Watson Assistant heeft al meerdere implementaties. Het systeem werd bijvoorbeeld gebruikt door het bedrijf Harman, dat een stemassistent creëerde voor de Maserati-conceptauto (6). Op de luchthaven van München bestuurt een IBM-assistent de Pepper-robot om bezoekers te helpen zich te verplaatsen. Het derde voorbeeld is Chameleon Technologies, waarbij spraaktechnologie wordt gebruikt in een slimme thuismeter.

6. Watson-assistent in de Maserati-conceptauto

Het is de moeite waard hieraan toe te voegen dat de onderliggende technologie hier ook niet nieuw is. Watson Assistant omvat encryptiemogelijkheden voor bestaande IBM-producten, Watson Conversation en Watson Virtual Agent, evenals API's voor taalanalyse en chat.

Amazon is niet alleen een leider op het gebied van intelligente spraaktechnologie, maar maakt er ook een directe business van. Sommige bedrijven hebben echter al veel eerder met Echo-integratie geëxperimenteerd. Sisense, een bedrijf in de BI- en analysetoolsindustrie, introduceerde in juli 2016 de Echo-integratie. Op zijn beurt besloot startup Roxy om zijn eigen spraakgestuurde software en hardware voor de horeca te creëren. Eerder dit jaar introduceerde Synqq een notitie-app die spraak- en natuurlijke taalverwerking gebruikt om notities en agenda-items toe te voegen zonder ze op een toetsenbord te hoeven typen.

Al deze kleine bedrijven hebben hoge ambities. Wat ze echter het meest hebben geleerd, is dat niet elke gebruiker zijn gegevens wil overdragen aan Amazon, Google, Apple of Microsoft, de belangrijkste spelers in het bouwen van spraakcommunicatieplatforms.

Amerikanen willen kopen

In 2016 was gesproken zoekopdrachten goed voor 20% van alle mobiele zoekopdrachten op Google. Mensen die deze technologie dagelijks gebruiken, noemen het gemak en de multitasking als de grootste voordelen. (bijvoorbeeld de mogelijkheid om een zoekmachine te gebruiken tijdens het autorijden).

Visiongain-analisten schatten de huidige waarde van de markt voor slimme digitale assistenten op 1,138 miljard dollar.Er zijn steeds meer van dergelijke mechanismen. Volgens Gartner eind 2018 30% van onze interacties met technologie zal dit gebeuren via gesprekken met spraaksystemen.

Het Britse onderzoeksbureau IHS Markit schat dat de markt voor digitale assistenten op het gebied van AI (kunstmatige intelligentie) eind dit jaar vier miljard apparaten zal omvatten, en dat dit aantal in 4 zou kunnen toenemen tot zeven miljard.

Volgens rapporten van eMarketer en VoiceLabs gebruikten 2017 miljoen Amerikanen in 35,6 minstens één keer per maand stembesturing. Dit betekent een stijging van bijna 130% ten opzichte van het voorgaande jaar. Alleen al de markt voor digitale assistenten zal naar verwachting in 2018 met 23% groeien. Dit betekent dat u ze al zult gebruiken 60,5 miljoen Amerikanen, wat concreet geld zal opleveren voor hun fabrikanten. RBC Capital Markets schat dat de Alexa-interface Amazon in 2020 tot 10 miljard dollar aan inkomsten zal opleveren.

Wassen, bakken, schoonmaken!

Spraakinterfaces komen steeds vaker op de markt voor huishoudelijke apparaten en consumentenelektronica. Dit was vorig jaar al te zien tijdens de beurs IFA 2017. Het Amerikaanse bedrijf Neato Robotics presenteerde bijvoorbeeld een robotstofzuiger die verbinding maakt met een van meerdere smarthomeplatforms, waaronder het Amazon Echo-systeem. Door tegen uw Echo slimme luidspreker te praten, kunt u de machine opdracht geven uw hele huis op specifieke tijden van de dag of nacht schoon te maken.

Andere spraakgestuurde producten die werden tentoongesteld, varieerden van smart-tv's die onder de merknaam Toshiba werden verkocht door het Turkse Vestel tot verwarmde dekens van het Duitse Beurer. Veel van deze elektronische apparaten kunnen ook op afstand worden geactiveerd met behulp van smartphones.

Volgens vertegenwoordigers van Bosch is het echter nog te vroeg om te zeggen welke thuisassistent-optie dominant zal worden. Het Duitse techconcern demonstreerde op IFA 2017 wasmachines (7), ovens en koffiemachines die verbinding maken met Echo. Bosch wil ook dat zijn apparaten in de toekomst compatibel zijn met de spraakplatforms van Google en Apple.

7. Bosch wasmachine die verbinding maakt met Amazon Echo

Bedrijven als Fujitsu, Sony en Panasonic ontwikkelen hun eigen AI-aangedreven stemassistentoplossingen. Sharp voegt deze technologie toe aan ovens en kleine robots die op de markt komen. Nippon Telegraph & Telephone huurt hardware- en speelgoedfabrikanten in om een stemgestuurd kunstmatige-intelligentiesysteem aan te passen.

Oud begrip. Is haar tijd eindelijk gekomen?

In feite bestaat het concept van Voice User Interface (VUI) al tientallen jaren. Iedereen die jaren geleden Star Trek of 2001: A Space Odyssey heeft gezien, had waarschijnlijk verwacht dat we rond het jaar 2000 allemaal computers met onze stem zouden besturen. Bovendien waren het niet alleen sciencefictionauteurs die het potentieel van dit soort interfaces zagen. In 1986 vroegen Nielsen-onderzoekers aan IT-professionals wat volgens hen de grootste verandering in gebruikersinterfaces tegen het jaar 2000 zou zijn. Zij wezen vooral op de ontwikkeling van spraakinterfaces.

Er zijn redenen om op een dergelijke oplossing te hopen. Verbale communicatie is immers de meest natuurlijke manier voor mensen om bewust gedachten uit te wisselen, dus het gebruik ervan voor mens-machine-interactie lijkt voorlopig de beste oplossing.

Eén van de eerste VUI's belde schoenendoos, werd begin jaren zestig door IBM opgericht. Het was de voorloper van de huidige spraakherkenningssystemen. De ontwikkeling van VUI-apparaten werd echter beperkt door de beperkingen van de rekenkracht. Het in realtime ontleden en interpreteren van menselijke spraak vergt veel inspanning, en het heeft ruim vijftig jaar geduurd voordat dit daadwerkelijk mogelijk was.

Apparaten met spraakinterfaces begonnen halverwege de jaren negentig in massaproductie te verschijnen, maar werden niet populair. De eerste telefoon met stembediening (kiezer) was dat Philips Vonk, uitgebracht in 1996. Dit innovatieve en gebruiksvriendelijke apparaat was echter niet vrij van technologische beperkingen.

Er verschenen regelmatig andere telefoons die waren uitgerust met vormen van spraakinterface (gemaakt door bedrijven als RIM, Samsung of Motorola) op de markt, waardoor gebruikers met hun stem een nummer konden bellen of sms-berichten konden verzenden. Ze vereisten echter allemaal het onthouden van specifieke commando's en het uitspreken ervan in een geforceerde, kunstmatige vorm, aangepast aan de mogelijkheden van de apparaten van die tijd. Dit genereerde een groot aantal fouten, wat op zijn beurt leidde tot ontevredenheid bij de gebruiker.

We betreden nu echter een nieuw computertijdperk, waarin de vooruitgang op het gebied van machinaal leren en kunstmatige intelligentie het potentieel van conversatie opent als een nieuwe manier om met technologie om te gaan (8). Het aantal apparaten dat spraakinteractie ondersteunt, is een belangrijke factor geworden die een grote impact heeft gehad op de ontwikkeling van VUI. Tegenwoordig bezit bijna 1/3 van de wereldbevolking al smartphones die voor dit soort gedrag kunnen worden gebruikt. Het lijkt erop dat de meeste gebruikers eindelijk klaar zijn om hun spraakinterfaces aan te passen.

8. Moderne geschiedenis van de ontwikkeling van spraakinterfaces

Voordat we echter vrijuit met een computer kunnen praten, zoals de personages in A Space Odyssey deden, moeten we een aantal problemen overwinnen. Machines zijn nog steeds niet erg goed in het omgaan met taalkundige nuances. Daarnaast veel mensen voelen zich nog steeds ongemakkelijk bij het geven van spraakopdrachten aan een zoekmachine.

Statistieken tonen aan dat stemassistenten voornamelijk thuis of onder goede vrienden worden gebruikt. Geen van de respondenten gaf toe gesproken zoekopdrachten op openbare plaatsen te gebruiken. Deze blokkade zal echter waarschijnlijk verdwijnen met de verspreiding van deze technologie.

Technisch moeilijke vraag

Het probleem waarmee (ASR)-systemen worden geconfronteerd, is het extraheren van bruikbare gegevens uit een spraaksignaal en het associëren ervan met een specifiek woord dat een specifieke betekenis heeft voor een persoon. De uitgesproken klanken zijn elke keer anders.

Variabiliteit van spraaksignalen is zijn natuurlijke eigenschap, waardoor we bijvoorbeeld accent of intonatie herkennen. Elk onderdeel van het spraakherkenningssysteem heeft een specifieke taak. Op basis van het verwerkte signaal en de parameters ervan wordt een akoestisch model gemaakt, dat is gekoppeld aan het taalmodel. Het herkenningssysteem kan werken op basis van een klein of groot aantal patronen, wat bepalend is voor de grootte van het woordenboek waarmee het werkt. Ze kunnen zijn kleine woordenboeken in het geval van systemen die individuele woorden of commando's herkennen, evenals grote databases die het equivalent van een taalset bevat en rekening houdt met het taalmodel (grammatica).

De uitdagingen waarmee steminterfaces worden geconfronteerd, zijn in de eerste plaats spraak correct begrijpen, waarin bijvoorbeeld vaak hele grammaticale reeksen worden weggelaten, zijn er taalkundige en fonetische fouten, fouten, weglatingen, spraakgebreken, homoniemen, ongerechtvaardigde herhalingen, enz. Al deze ACP-systemen moeten snel en betrouwbaar werken. Dat is tenminste de verwachting.

Een bron van problemen komt ook voort uit andere akoestische signalen dan de spraak die wordt herkend, die de invoer van het herkenningssysteem binnenkomen, d.w.z. alle soorten interferentie en ruis. In het eenvoudigste geval heb je ze nodig uitfilteren. Deze taak lijkt routinematig en gemakkelijk: verschillende signalen worden immers gefilterd en elke elektronica-ingenieur weet wat hij in een dergelijke situatie moet doen. Dit moet echter zeer zorgvuldig en zorgvuldig gebeuren als het resultaat van de spraakherkenning aan onze verwachtingen zal voldoen.

De momenteel gebruikte filtering maakt het mogelijk om, samen met het spraaksignaal, de externe ruis te verwijderen die door de microfoon wordt opgevangen en de interne eigenschappen van het spraaksignaal zelf, die het moeilijk maken om te herkennen. Er ontstaat echter een veel complexer technisch probleem wanneer de interferentie van het geanalyseerde spraaksignaal... een ander spraaksignaal is, dat wil zeggen dat er bijvoorbeeld luide discussies in de buurt zijn. Deze vraag staat in de literatuur bekend als de zogenaamde. Dit vereist al het gebruik van complexe methoden, de zogenaamde. deconvolutie (ontrafelen) van het signaal.

De problemen met spraakherkenning houden daar niet op. Het is de moeite waard om te beseffen dat spraak veel verschillende soorten informatie bevat. De menselijke stem suggereert het geslacht, de leeftijd, de verschillende karakters van de eigenaar of zijn gezondheidstoestand. Er is een grote tak van de biomedische technologie die zich toelegt op het diagnosticeren van verschillende ziekten op basis van de karakteristieke akoestische verschijnselen die in het spraaksignaal worden aangetroffen.

Er zijn ook toepassingen waarbij het voornaamste doel van akoestische analyse van een spraaksignaal is om de spreker te identificeren of te verifiëren dat hij is wie hij zegt te zijn (stem in plaats van een sleutel, wachtwoord of PUK-code). Dit kan belangrijk zijn, vooral voor slimme bouwtechnologieën.

Het eerste onderdeel van een spraakherkenningssysteem is микрофон. Het door de microfoon opgevangen signaal blijft echter meestal van weinig nut. Onderzoek toont aan dat de vorm en het verloop van de geluidsgolf sterk variëren, afhankelijk van de persoon, de snelheid van spreken en deels de stemming van de gesprekspartner - terwijl ze voor een klein deel de inhoud van de gesproken commando's weerspiegelen.

Daarom moet het signaal correct worden verwerkt. Moderne akoestiek, fonetiek en computerwetenschap bieden samen een rijke reeks hulpmiddelen die kunnen worden gebruikt om spraaksignalen te verwerken, analyseren, herkennen en begrijpen. Het dynamische spectrum van het signaal, het zogenaamde dynamische spectrogrammen. Ze zijn vrij eenvoudig te verkrijgen, en spraak, gepresenteerd in de vorm van een dynamisch spectrogram, is relatief eenvoudig te herkennen met behulp van technieken die vergelijkbaar zijn met die gebruikt bij beeldherkenning.

Eenvoudige spraakelementen (bijvoorbeeld commando's) kunnen worden herkend aan de eenvoudige gelijkenis van hele spectrogrammen. Een spraakgestuurd woordenboek voor mobiele telefoons bevat bijvoorbeeld slechts enkele tientallen tot een paar honderd woorden en zinsdelen, meestal vooraf vastgelegd zodat ze gemakkelijk en efficiënt kunnen worden geïdentificeerd. Dit is voldoende voor eenvoudige besturingstaken, maar beperkt de algehele toepassing ernstig. Systemen die volgens het schema zijn gebouwd, ondersteunen in de regel alleen specifieke luidsprekers waarvoor de stemmen speciaal zijn opgeleid. Dus als er iemand nieuw is die zijn stem wil gebruiken om het systeem te besturen, zal hij hoogstwaarschijnlijk niet worden geaccepteerd.

Het resultaat van deze bewerking wordt genoemd spectrogram 2-W, dat wil zeggen een tweedimensionaal spectrum. Er is nog een les in dit blok die de moeite waard is om op te letten: segmentatie. Over het algemeen hebben we het over het opbreken van een continu spraaksignaal in delen die afzonderlijk kunnen worden herkend. Alleen deze individuele diagnoses vormen de herkenning van het geheel. Deze procedure is nodig omdat het onmogelijk is om lange en complexe spraak in één keer te identificeren. Er zijn al hele boekdelen geschreven over welke segmenten in een spraaksignaal moeten worden onderscheiden, dus we zullen nu niet beslissen of de te onderscheiden segmenten fonemen (geluidsequivalenten), lettergrepen of misschien allofonen moeten zijn.

Het automatische herkenningsproces verwijst altijd naar bepaalde kenmerken van objecten. Voor het spraaksignaal zijn honderden verschillende parametersets getest verdeeld in erkende frames en hebben geselecteerde functieswaarbij deze frames vertegenwoordigd zijn in het herkenningsproces kunnen we (voor elk frame afzonderlijk) uitvoeren классификация, d.w.z. het toewijzen van een identificatie aan het frame dat het in de toekomst zal vertegenwoordigen.

Volgende fase frames samenvoegen tot afzonderlijke woorden - meestal gebaseerd op de zogenaamde. model van impliciete Markov-modellen (HMM-). Dan komt de montage van woorden volledige zinnen.

Nu kunnen we even terugkeren naar het Alexa-systeem. Zijn voorbeeld toont een meerfasig proces van machinaal ‘begrijpen’ van een persoon – preciezer: het commando dat hij geeft of de gestelde vraag.

Het begrijpen van woorden, het begrijpen van de betekenis en het begrijpen van de intentie van de gebruiker zijn totaal verschillende dingen.

Daarom is de volgende stap het werk van de NLP-module (), waarvan de taak is herkenning van gebruikersintentie, d.w.z. de betekenis van het bevel/de vraag in de context waarin het werd uitgesproken. Als de bedoeling bekend is, moet u dat doen toewijzing van zogenaamde vaardigheden en capaciteiten, dat wil zeggen een specifieke functie die wordt ondersteund door de intelligente assistent. Bij een vraag over het weer worden weergegevensbronnen opgeroepen, die nog moeten worden verwerkt tot spraak (TTS - mechanisme). Hierdoor hoort de gebruiker het antwoord op de gestelde vraag.

Stem? Grafische kunst? Of misschien allebei?

De meeste bekende moderne interactiesystemen zijn gebaseerd op een zogenaamde tussenpersoon grafische gebruikersinterface (grafische interface). Helaas is een grafische interface niet de meest voor de hand liggende manier om met een digitaal product te communiceren. Dit vereist dat gebruikers eerst leren hoe ze de interface moeten gebruiken en deze informatie bij elke volgende interactie moeten onthouden. In veel situaties is spraak veel handiger, omdat interactie met de VUI net zo eenvoudig is als praten met het apparaat. Een interface die gebruikers niet dwingt om specifieke commando's of interactiemethoden te onthouden en te onthouden, veroorzaakt minder problemen.

Uiteraard betekent de uitbreiding van VUI niet het opgeven van meer traditionele interfaces; er zullen eerder hybride interfaces beschikbaar komen die verschillende interactiemethoden combineren.

De spraakinterface is niet geschikt voor alle taken in een mobiele context. Hiermee bellen we een vriend die een auto bestuurt en sturen we hem zelfs een sms, maar het controleren van de laatste overdrachten kan te moeilijk zijn - vanwege de hoeveelheid informatie die naar het systeem () wordt verzonden en door het systeem (systeem) wordt gegenereerd. Zoals Rachel Hinman suggereert in haar boek Mobile Frontier, wordt het gebruik van VUI het meest effectief bij het uitvoeren van taken waarbij de hoeveelheid invoer- en uitvoerinformatie klein is.

Een smartphone verbonden met internet is handig, maar tegelijkertijd onhandig (9). Elke keer dat een gebruiker iets wil kopen of een nieuwe dienst wil gebruiken, moet hij een andere applicatie downloaden en een nieuw account aanmaken. Hier is een veld gecreëerd voor het gebruik en de ontwikkeling van spraakinterfaces. In plaats van gebruikers te dwingen veel verschillende apps te installeren of voor elke dienst afzonderlijke accounts aan te maken, zal VUI de last van deze lastige taken verschuiven naar een stemassistent met AI, zeggen experts. Het zal voor hem handig zijn om inspannende activiteiten uit te voeren. Wij geven hem alleen bevelen.

9. Spraakinterface via een smartphone

Tegenwoordig zijn meer dan alleen je telefoon en computer verbonden met internet. Slimme thermostaten, lampen, waterkokers en vele andere IoT-geïntegreerde apparaten zijn ook op het netwerk aangesloten (10). Er zijn dus overal om ons heen draadloos verbonden apparaten die ons leven vullen, maar ze passen niet allemaal op natuurlijke wijze in een grafische gebruikersinterface. Door VUI te gebruiken, kunt u ze eenvoudig in onze omgeving integreren.

10. Spraakinterface met internet der dingen

Het creëren van een spraakgestuurde gebruikersinterface zal binnenkort een belangrijke vaardigheid voor ontwerpers worden. Dit is een echte uitdaging: de noodzaak om stemsystemen te implementeren zal je dwingen je meer te concentreren op proactief ontwerp, dat wil zeggen proberen de oorspronkelijke bedoelingen van de gebruiker te begrijpen en te anticiperen op hun behoeften en verwachtingen in elke fase van het gesprek.

Spraak is een effectieve manier om gegevens in te voeren; gebruikers kunnen hiermee snel en op hun eigen voorwaarden opdrachten aan het systeem geven. Aan de andere kant biedt het scherm een efficiënte manier om informatie weer te geven: het stelt systemen in staat een grote hoeveelheid informatie tegelijkertijd weer te geven, waardoor de belasting van het geheugen van de gebruiker wordt verminderd. Het is logisch dat het combineren ervan in één systeem bemoedigend klinkt.

Slimme luidsprekers zoals Amazon Echo en Google Home bieden helemaal geen visuele weergave. Door de nauwkeurigheid van de stemherkenning over gematigde afstanden aanzienlijk te verbeteren, maken ze handsfree bediening mogelijk, wat op zijn beurt hun flexibiliteit en efficiëntie vergroot – zelfs wenselijk voor gebruikers die al een smartphone met spraakondersteuning hebben. Het ontbreken van een scherm is echter een enorme beperking.

Alleen pieptonen kunnen worden gebruikt om gebruikers op de hoogte te stellen van mogelijke opdrachten, en het hardop lezen van de uitvoer wordt vervelend, behalve bij de eenvoudigste taken. Een timer instellen via spraakopdracht tijdens het koken is leuk, maar je vragen hoeveel tijd er nog over is, is niet nodig. Het ontvangen van een regelmatige weersvoorspelling wordt een geheugentest voor de gebruiker, die de hele week moet besteden aan het luisteren en verwerken van een reeks feiten in plaats van ze in één oogopslag van het scherm te halen.

Ontwerpers hebben zich al ontwikkeld hybride oplossing, Echo Show (11), die een beeldscherm toevoegde aan de standaard Echo slimme luidspreker. Dit breidt de functionaliteit van de apparatuur aanzienlijk uit. De Echo Show is echter nog steeds veel minder goed in staat om de basisfuncties uit te voeren die al lang beschikbaar zijn op smartphones en tablets. Zo kan hij (nog) niet op internet surfen, recensies tonen of de inhoud van je Amazon-winkelwagentje weergeven.

Visuele weergave is inherent een effectievere manier om mensen van veel informatie te voorzien dan alleen geluid. Voice-first-ontwerp kan de spraakinteractie aanzienlijk verbeteren, maar op de lange termijn zal het willekeurig niet gebruiken van visuele menu's omwille van de interactie hetzelfde zijn als worstelen met één hand op de rug gebonden. Vanwege de dreigende complexiteit van end-to-end intelligente spraak- en display-interfaces moeten ontwikkelaars serieus nadenken over een hybride benadering van interfaces.

Het vergroten van de efficiëntie en snelheid van systemen voor het genereren en herkennen van spraak heeft het mogelijk gemaakt om ze te gebruiken in toepassingen en gebieden als bijvoorbeeld:

• militair (spraakopdrachten in vliegtuigen of helikopters, bijvoorbeeld F16 VISTA),

• automatische teksttranscriptie (spraak naar tekst),

• interactieve informatiesystemen (Prime-Speech, stemportalen),

• mobiele apparaten (telefoons, smartphones, tablets),

• robotica (Cleverbot – ASR-systemen gecombineerd met kunstmatige intelligentie),

• automotive (handsfree bediening van auto-onderdelen, bijvoorbeeld Blue & Me),

• thuistoepassingen (smart home-systemen).

Let op je veiligheid!

Auto's, apparaten, verwarmings-/koelings- en huisbeveiligingssystemen, en veel huishoudelijke apparaten beginnen spraakinterfaces te gebruiken, vaak aangedreven door AI. In dit stadium worden de gegevens die zijn verkregen uit miljoenen gesprekken met machines verzonden computerwolken. Het is duidelijk dat marketeers hierin geïnteresseerd zijn. En niet alleen zij.

Een recent rapport van beveiligingsexperts van Symantec beveelt aan dat gebruikers van spraakopdrachten geen beveiligingsfuncties zoals deursloten mogen bedienen, laat staan huisbeveiligingssystemen. Hetzelfde geldt voor het opslaan van wachtwoorden of vertrouwelijke informatie. De veiligheid van kunstmatige intelligentie en slimme producten is nog niet voldoende onderzocht.

Wanneer apparaten in het hele huis naar elk woord luisteren, wordt het risico op hacking en systeemmisbruik een uiterst belangrijke zorg. Als een aanvaller toegang krijgt tot het lokale netwerk of de bijbehorende e-mailadressen, kunnen de instellingen van het smartapparaat worden gewijzigd of teruggezet naar de fabrieksinstellingen, wat resulteert in het verlies van waardevolle informatie en het verwijderen van de gebruikersgeschiedenis.

Met andere woorden: beveiligingsexperts vrezen dat stemgestuurde en VUI-gestuurde AI nog niet slim genoeg is om ons te beschermen tegen potentiële bedreigingen en onze mond te houden als een vreemdeling iets vraagt.