Spraak: de toekomst van interactie?

De toekomst is voor apparaten die spraak combineren met beeld. Hoe beter die twee vormen van interactie elkaar aanvullen, hoe beter de gebruikerservaring.

Kathryn Whiterton van Nielson Norman Group ziet spraak en beelscherm steeds meer naar elkaar toe groeien:

  • Screen-first apparaten zoals smartphones, tablets en televisies worden uitgebreid met spraakgestuurd opties.
  • Voice-first apparaten zoals ‘smart speakers’ worden uitgebreid met schermen. Met the Echo Show als een van de eerste echte commerciële initiatieven.

Tekst zal nooit verdwijnen

Kathryn verwacht nog geen science-fiction taferelen waarin tekst volledig is vervangen door spraak. Maar het is al wel duidelijk dat mens-machine communicatie snel opschuift naar een combinatie van geschreven en gesproken interactie. In twee richtingen: van de mens naar de machine en andersom.

Spraakinteractie vind je nu nog voornamelijk binnen het domein van persoonlijk en thuisgebruik. Maar als mensen eenmaal gewend zijn, kun je verwachten dat deze vorm van interactie ook wordt toegepast in een zakelijke en commerciële context.

Kathryn geeft een welkom voorbeeld: “For anyone who’s ever struggled with a conference-room projector or phone-system menu, imagine if you could just say ‘Show my screen’ or ‘Start the meeting.’”

Echte spraak-beeld integratie

Echt geïntegreerde spraak-plus-beeld systemen kunnen de gebruikservaring significant verbeteren voor een heel reeks aan taken door optimaal gebruik te maken van de kracht van spraak en beeld.

  • Spraak is efficiënt voor input: je kunt snel opdrachten geven in je eigen taal en context zonder te hoeven nadenken wat de teksten op het beeld betekenen of waar ze te vinden zijn. En niet onbelangrijk: je kunt ook eenvoudig ‘multitasken’ bij spraak, want je hebt je handen vrij.
  • Een scherm is efficiënt voor output: het biedt de mogelijkheid om veel informatie te presenteren zonder het (auditieve) geheugen van mensen te belasten. Visueel ‘scannen’ gaat nou eenmaal sneller dan luisteren en kiezen uit wat je zojuist hebt gehoord. Met beeld kun je ook eenvoudiger aangeven wat een mogelijke vervolgstap is.

Spraak is: niet aanraken

Een mooi voorbeeld van de kracht van spraak is dat slepen en scrollen ook niet meer nodig zijn. Zeg gewoon: “Alexa, selecteer de eerste” of “Alexa, ga naar rechts”.

Amazon Echo Alexa - swipe right

Zowel het gebruiken als het ontwerpen van een gecombineerde spraak- en beeld interface gaat met vallen en opstaan. Kathryn geeft een aantal voorbeelden van minder geslaagde pogingen (Siri, Google Assistant). Maar ook deze bedrijven zullen snel met betere alternatieven komen, verwacht zij.

Kathryn is heel duidelijk in haar advies: “Essentially, voice-first represents a new approach to the problem of integrating voice commands into an existing graphical user interface.”

Spraak alleen is te beperkt

Kathryn pleit niet voor ‘voice only’. Integendeel, zij ziet in dat ‘voice-first’ de mens-machine interactie enorm kan verrijken. Maar spraak alleen ziet zij toch als “going into a fight with one hand tied behind your back”. Soms heb je gewoon tekst nodig. Je kunt onmogelijk alle opties onthouden die een systeem te bieden heeft. Dit is bij zoeksystemen niet anders: Soms heb je tekst nodig.

Lees Kathryn’s artikel Voice First: The Future of Interaction?

(met dank aan @BogieZero voor de tip)