Wetenschap
Spraakherkenning

Computer beter in spraakherkenning dan mens

Hé Siri, wat voor weer wordt het? Steeds meer mensen praten tegen hun telefoon. Maar spraakherkenning werkt niet voor iedereen. Daar lijkt onderzoek van de Multimedia Computing Group nu voorzichtig verandering in te brengen.

Matthijs Valkering studeerde voor arts en liep coschappen toen hij een ongeluk kreeg. Hij belandde in een rolstoel en heeft wegens een zenuwbeschadiging moeite met spreken. Een door Yuanyuan Zhang en het Delftse inclusieve spraakcommunicatielab speciaal voor hem ontwikkelde automatische spraakherkenner moet hem ondersteunen bij het geven van onderwijs. (Foto: Edda Heinsman)

Een regenachtige winderige herfstochtend, negen uur. Toch zit de collegezaal vol bij het vragenblok over beschrijvende statistiek en kansrekenen aan de faculteit gezondheidswetenschappen (Vrije Universiteit Amsterdam). Aan het eind van het college neemt Matthijs Valkering het woord. Op het scherm tovert hij een mentimeter tevoorschijn, een soort interactieve quiz. Het is stil in de zaal. Hebben de studenten vragen? ‘Nee’, verschijnt er groot in beeld. Het is goed dat de vraag in beeld staat, want Valkering is lastig te verstaan. Hij heeft dysartrie, een spraakstoornis.

In Nederland hebben meer dan 400 duizend mensen dysartrie. Deze spraakstoornis kan ontstaan na beschadiging aan het zenuwstelsel, of bij bijvoorbeeld Parkinson. “Mensen met een dysartrie spreken langzamer en zachter dan gemiddeld en articuleren minder goed. Die spraak is daardoor veel minder goed te verstaan”, legt Odette Scharenborg uit. Zij bekleedt sinds deze zomer de Delftse leerstoel inclusieve spraakcommunicatie (Multimedia Computing Group). “Als iemand met dysartrie automatische spraakherkenning probeert: forget it. Je kunt foutenpercentages van wel 300 procent krijgen.”

‘Systemen als Azure of Siri herkent mensen met een Achterhoeks accent heel veel slechter dan een Randstedelijk accent’

En daar gaat Scharenborg iets aan doen. “Wij willen spraaktechnologie ontwikkelen voor iedereen, onafhankelijk van hoe je spreekt, wie je bent, of welke taal je spreekt.”

Accent

Met spraak je agenda invullen, de radio aanzetten of een geschreven bericht dicteren in whatsapp: handig! Steeds meer mensen en bedrijven maken dankbaar gebruik van automatische spraak-naar-tekst-technologie. Voor mensen die door een beperking niet goed kunnen typen, is het helemaal een uitkomst. Maar – zo legt Scharenborg uit- voor veel mensen werkt automatische spraakherkenningssoftware op dit moment niet goed. “Ik kom zelf uit de Achterhoek. Systemen als Azure of Siri herkent mensen met een Achterhoeks accent heel veel slechter dan een Randstedelijk accent. Kom je uit Limburg, dan heb je echt een probleem.”

Dat geldt ook voor kinderen, en zelfs huidskleur speelt een rol, zo blijkt volgens Scharenborguit een paper uit de VS. Automatische spraakherkenningsmodellen hebben veel spraakdata nodig om te trainen. “Onze Nederlandse modellen zijn getraind met data uit het Corpus gesproken Nederlands, een verzameling van 900 uur aan spraakfragmenten. Interviews, telefoongesprekken, televisieprogramma’s, en allemaal gratis te gebruiken. Het zijn standaard volwassen moedertaalsprekers zonder afwijkingen in accent dan wel spraakproductie, bij voorkeur jonger dan zestig.”

Hoewel er inmiddels ook de toevoeging Jasmin is, met daarin spraak van kinderen, ouderen en niet-native sprekers, blijft herkenning problematisch.

“Zelfs als je een model specifiek traint op deze data, blijft het minder goed. De variabiliteit in niet-standaard-sprekersgroepen is veel groter. Mijn hypothese: de huidige modellen kunnen niet goed omgaan met deze grotere variabiliteit.”

Spraakherkenner beter dan de mens

Zijn de huidige modellen goed in het verstaan van ‘gemiddelde’ of ‘standaard’ spraak, mensen kunnen dat nog altijd beter. Bij spraakstoornissen ligt dit anders. Scharenborg: “Wij hebben nu data die voor het eerst het omgekeerde laat zien: dat de automatische spraakherkenner beter is dan de mens.”

En daar komt Matthijs Valkering naar voren. De docent-assistent aan de VU wil ondanks zijn spraakstoornis vooral ook doceren. “Ik maak veel gebruik van Abilia Lightwriter en Google Translate, die zijn prettig om mee te werken. Maar er zijn geen automatische spraakmodellen die mij goed verstaan.” Hij zocht contact met Odette Scharenborg: “Ik wilde zien of ze een manier had om met de huidige techniek mij meer ondersteuning te geven voor het lesgeven.” Valkerings verzoek in 2023 kwam precies op het goede moment. Scharenborg: “Wij wilden graag aan de slag met inclusieve spraakmodellen, maar hadden geen data.” TU Delft-promovendus Yuanyuan Zhang startte met het maken van een model precies afgestemd op Valkerings stem.

Oefenen, oefenen, oefenen

Hoe leer je een model om iemand met dysartrie te verstaan? “Oefenen, oefenen, oefenen”, aldus Valkering. Op Zhang maakten die opnamesessies met Valkering grote indruk. “Dan kwam hij aanrijden door de regen in zijn rolstoel, helemaal met de trein uit Amsterdam. Matthijs sprak urenlang teksten in, zowel in het Nederlands als het Engels, met het oog op zijn academische carrière. We hebben spontane spraak opgenomen, en spraak gerelateerd aan Matthijs’ werk. Ik vond het indrukwekkend om te zien hoe toegewijd hij was, zo geduldig en enthousiast. Dat maakt dat je extra hard wilt werken, en gefrustreerd kan zijn als het onderzoek niet snel genoeg vordert.”

Ook Valkering herinnert zich de oefensessies in het geluidsdichte studiootje als intensief. “Praten is heel vermoeiend. Ik spreek langzaam, en je ziet het…”, Valkering beweegt zijn hoofd opzij en slikt. “Ik neem af en toe een pauze om te slikken.” Dagen van opnemen leverden uiteindelijk ruim acht uur bruikbaar materiaal op. Zhang was tevreden en ging aan de slag met de nieuwe dataset: DysOne. Het is de eerste dataset met video en audio in Engels en Nederlands, in directe samenwerking met iemand met dysartrie.

Inspirerende docent

Terug naar de VU, naar de collegezaal waar studenten Izdihar Elorufi en Elaha Haqpal, Matthijs Valkering na het college aanschieten met een vraag. Hij legt rustig uit. De studentes luisteren aandachtig. Hoe is het om van Valkering les te krijgen? Elorufi: “Het is anders dan normaal. Maar hij doet erg zijn best en is erg actief op Canvas (een soort Brightspace, waar je huiswerk kunt zien, filmpjes bekijken over de cursus -red.) Hij beantwoordt de vragen goed en heeft ons zojuist ook goed geholpen.” Medestudente Elaha Haqpal sluit zich daar bij aan: “Tijdens het eerste college heeft hij zijn verhaal met ons gedeeld, heel inspirerend. Ondanks dat hij bepaalde lichamelijke limieten heeft, gaat hij door met zijn passie. Dat vind ik heel mooi.”

“Zo gaat het altijd”, verwijst Valkering naar zijn uitleg aan de twee studentes. Het liefst geeft hij uitleg of les aan kleine groepjes. Voor een groter publiek staan vindt hij op dit moment lastig. “Uiteindelijk wil ik spraakmodellen in het onderwijs integreren. Bijvoorbeeld dat ik automatisch ondertiteld word terwijl ik college geef, zodat de mensen die mij niet goed verstaan, mij toch kunnen begrijpen.” Zhang kijkt verder: “Een tekst-naar-spraak- of spraak-naar-spraak-systeem met voice conversion, dus dat je zijn eigen -niet ge-slurde– stem hoort, zou fantastisch zijn. Dat is een idee voor de toekomst.”

Studentes Izdihar Elorufi en Elaha Haqpal krijgen uitleg van Matthijs Valkering. (Foto: Edda Heinsman)
Veelbelovend spraakmodel

En nu is er een model, speciaal getraind op Valkerings stem. “Het model werkt inmiddels ook lokaal op de computer, dus het gaat niet meer via de cloud”, zegt Zhang. “Dit maakt het praktischer en goedkoper. Dat de data lokaal wordt opgeslagen, draagt ook bij aan de privacy.” Het duurt nog wel even voordat de spraakherkenningssoftware af is en Valkering het echt kan gaan gebruiken. Maar de eerste resultaten zijn veelbelovend. Zhang: “Vorige maand hebben we tests gedaan tijdens het Speech Science festival in Ahoy, Rotterdam. Het publiek had een gemiddelde score van 35,5 procent, dus 35,5 van de 100 woorden goed. Ons systeem daarentegen zit al op 86,4 procent goed. Hoewel deze nauwkeurigheid nog steeds laag is in vergelijking met commerciële systemen, kan het voldoende voordeel bieden voor mensen die naar dysartrische spraak luisteren. Deze testresultaten zijn verkregen met behulp van de gegevens die we met Matthijs hebben verzameld, maar we zijn van plan om verdere tests uit te voeren met Matthijs’ huidige spraak – mits hij daarmee akkoord gaat.”

‘Ik verwacht dat het binnen een paar jaar al mogelijk is dat spraakherkenning voor iedereen werkt, ook voor mensen met een spraakstoornis’

Valkering kan het model nog niet in praktijk gebruiken bij zijn lessen. Maar hij is al behoorlijk tevreden: “Ik wil bijdragen aan de ontwikkeling van spraakmodellen voor mensen met dysartrie.” En daar is in potentie veel behoefte aan. Zhang: “Ik kon mijn eigen grootvader op het eind van zijn leven heel moeilijk verstaan. Ik wist toen niet wat dit was, maar nu herken ik het, het was waarschijnlijk ook dysartrie.” De dataset van Valkerings stem wordt toegankelijk gemaakt voor ander wetenschappelijk onderzoek. Valkering is hoopvol: “Ik verwacht dat het binnen een paar jaar al mogelijk is dat spraakherkenning voor iedereen werkt, ook voor mensen met een spraakstoornis.”

Het experiment werpt voor Valkering persoonlijk op dit moment ook al positieve vruchten af: “Het is voor mij win-win. Niet alleen helpt de dataset anderen. Mijn eigen spraak is kwalitatief omhoog geschoten dankzij het vele praten, omdat ik mezelf blijf uitdagen. De spraakcomputer, die getypte woorden omzet in gesproken taal en die Valkering vroeger altijd bij zich droeg, laat hij nu steeds vaker thuis. “Alleen in de kroeg is het wel handig, daar is vaak veel reuring waardoor ik nog lastiger te verstaan ben.”

Wetenschapsredacteur Edda Heinsman

Heb je een vraag of opmerking over dit artikel?

E.Heinsman@tudelft.nl

Comments are closed.