Hoe Vlaams klinken Nederlandstalige text-to-speech oplossingen en waarom zijn bijna alle virtuele assistenten een vrouw?

Voice technologie heeft al een hele geschiedenis achter zich, en is op het punt gekomen dat computer gegenereerde stemmen bijna niet meer te onderscheiden zijn van een echte stem. Hoewel Google, Microsoft en Amazon zich voorlopig beperken tot Hollandse stemmen voor de Nederlandstalige markt zijn er aanbieders die wel een goede Vlaamse kwaliteitsstem aanbieden. Tegelijk zorgt dit hyper-realisme ook voor enkele belangrijke ethische vragen en gevaren. Waarom worden vooral vrouwelijke stemmen voor virtuele assistenten gebruikt en wat als mensen het echte niet meer van het gemaakte kunnen onderscheiden?

Voice technologie is een van de meest beloftevolle evoluties in digitale communicatie van de laatste jaren. Waar we met z'n allen aandacht gaven aan de schermen van desktop computers zijn we geëvolueerd naar laptops en vervolgens tablets en smartphones. Altijd maar kleiner dus. Wat als we een deel van onze digitale communicatie nu ook zonder scherm zouden kunnen doen? Is de beste interface nu echt geen interface? Maar vooral: is Vlaanderen hier klaar voor?

Of de Vlaming zelf staat te wachten op een wereld waarin we gezellig een gesprek aangaan met voorgeprogrammeerde robots laat ik nog even in het midden. In dit artikel neem ik een klein deel van het antwoord onder de loep, met name de Vlaamse text-to-speech mogelijkheden. Maar eerst een stukje geschiedenis over voice technologie.

Hoe het allemaal begon

Dat computer gegenereerde stemmen bijna niet meer van een echte stem te onderscheiden zijn, is geen toeval, want aan de weg naar ultra-realistische stemmen wordt al lang getimmerd. In het bijzonder zijn volgende ontwikkelingen heel bepalend geweest voor spraaktechnologie:

1939: De Voder – De praatmachine werd voor het eerst voorgesteld op de wereldtentoonstelling in New York. Deze machine was te vergelijken met een piano en produceerde een zeer sterk robotgeluid.
1962: De IBM 7094 - De eerste computer die met een computerstem een liedje zong. De stem werd geprogrammeerd door John Kelly en Carol Lockbaum. Het liedje dat gezongen werd, Daisy Bell, kreeg publieke bekendheid doordat het gebruikt werd in de epische film 2001: A Space Odyssey.
1979: S.A.M. – De eerste spraaksoftware die geen behoefte had aan speciale hardware. De Software werkte onder andere op de Apple II en de Commodore 64. De kwaliteit was echter belabberd.
2011: SIRI – Apple introduceerde SIRI, de spraakgestuurde persoonlijke assistent, voor het eerst op de Iphone 4s.
Nu – Machine learning – Machine learning modellen laten toe om op een nieuwe manier realistische stemmen te creëren. Een bekend voorbeeld is Wavenet van DeepMind (Google).

Dat Engelstalige stemmen erg realistisch klinken is geen geheim. Eerder dit jaar slaagden Apple-ingenieurs er in om om de stem van Bill Gates nagenoeg perfect na te bootsen. Daarnaast bieden grote bedrijven zoals Google, Microsoft en Amazon text-to-speech oplossingen aan in verschillende talen zodat de technologie ook erg toegankelijk wordt.

Hoewel de markt nog erg jong is worden deze stemmen gebruikt in verschillende toepassingen zoals radio broadcasting, het toegankelijk maken van websites voor slechtzienden, afspraak herinneringen, domotica en nog veel meer. Algemeen wordt verwacht dat voice zich zal ontwikkelen tot een van de belangrijkste interfaces voor digitale communicatie.

Onder de loep: 4 aanbieders van Vlaamse stemmen

Ook in het Nederlands zijn er stemmen beschikbaar, maar voor de Vlaamse markt hebben Google, Microsoft en Amazon vooralsnog geen lokaal alternatief. Gelukkig zijn er enkele innovatieve spelers op de markt die nu al verschillende Vlaamse stemmen aanbieden. In onderstaand filmpje vergelijken we 4 aanbieders. De laatste, Acapela, is een Belgisch bedrijf met meer dan 100 stemmen in 30 talen! Oordeel zelf over de kwaliteit van de stemmen.

Zoals je wel merkt, zijn er grote kwaliteitsverschillen tussen de verschillende computergegenereerde Vlaamse stemmen. Belangrijk om weten: het is perfect mogelijk de stem aan te passen volgens de specifieke wensen van jouw bedrijf. Zo kan je op zoek gaan naar de stem die best bij je merk past en handmatig verbeteringen aanbrengen aan bepaalde uitspraken.

Naar wat nu precies de perfecte stem voor je brand is, werd al veel onderzoek gedaan. Zo het is niet toevallig dat de meeste virtuele assistenten zoals Alexa en Siri een vrouwelijke stem hebben. Na testen is gebleken dat mensen positiever staan tegenover vrouwelijke stem voor een assistent dan een mannelijke stem. Voor een applicatie met een autoritaire functie daarentegen wordt de voorkeur gegeven aan een mannelijke stem.

Hallo, mevrouw?

Daarmee is de discussie over het gebruik van mannelijke of vrouwelijke stemmen niet afgesloten, er kwamen snel bedenkingen vanuit het kamp voor gendergelijkheid. UNESCO zelf kwam naar buiten met de waarschuwing dat vooral vrouwelijke stemmen gebruiken voor virtuele assistenten gevaar inhoudt voor de terugkeer van antieke en gevaarlijke percepties van vrouwen.

Als man heb ik hier zelf nooit over nagedacht, maar ik begrijp het punt en denk dat er wel enige grond van waarheid in deze waarschuwing zit. Maar wat moet je doen als bedrijf als je merkt dat de resultaten beter zijn met een vrouwelijke stem dan een mannelijke stem? Wordt ongetwijfeld vervolgd.

Fake news en deepfakes

De toekomst van digitale stemmen is wel duidelijk: technologische vooruitgang maakt het mogelijk om binnenkort levensechte stemmen te maken in alle talen. Maar ook hier schuilt gevaar. In tijden van fake news en de zogenaamde deepfakes wordt het wel heel makkelijk om zéér overtuigend valse boodschappen de wereld in te sturen.

Zo verscheen laatst een levensecht lijkende Mark Zuckerberg op de sociale media met de volgende boodschap: “Beeld je in... één man met totale controle over de gestolen data van miljarden mensen, al hun geheimen, hun leven, hun toekomst...”. Het leek alsof Zuckerberg met een schone lei wilde beginnen en toegaf dat hij onrechtmatig controle heeft over al onze data. Deze video kwam online als reactie nadat Facebook weigerde een bewerkte video van Nancy Pelosi offline te halen. Je kan je afvragen hoeveel van de tienduizenden mensen die dit 'nieuwsbericht' een like gaven en deelden het bericht daadwerkelijk als echt aanschouwden.

Er zullen ongetwijfeld cases volgen waarbij mensen onterecht van iets beschuldigd worden met een echt lijkende video-opname, inclusief een perfect klinkend geluid, als bewijsmateriaal.

Ethische vragen en gevaren

Kortom, voice technologie gaat met grote stappen vooruit en komt dichtbij een belangrijke mijlpaal waar de computergegeneerde stemmen niet meer van echte stemmen te onderscheiden zijn. Hoewel we in dit artikel niet diep ingegaan zijn op de positieve toepassingen van deze machtige technologie is het belangrijk om ook even stil te staan bij enkele ethische vragen en algemene gevaren.

Zonder twijfel zullen er in de toekomst wetten gemaakt worden die het gebruik van voice technologie regulariseren. Tot dan is het aan de bedrijven die op een innovatieve manier de klantervaring willen verbeteren om een volledig beeld te vormen van de impact van hun toepassingen rond voice technologie en uiteindelijk de juiste keuzes te maken.