Wetenschap

De heilige kraal van spraakherkenning

Wanneer spraakherkenningsprogramma’s leren begrijpen waar een gesprek over gaat, maken ze minder fouten. Informaticus dr.ir. Pascal Wiggers pleit voor meer context.

Taalherkenning werkt niet, is het heersende idee. Dat doet geen recht aan de vorderingen van de afgelopen vijftien jaar. Een voorgelezen krantenbericht wordt inmiddels voor 95 procent correct herkend. Maar we ergeren ons vooral aan de fouten die in elke tweede regel voorkomen. Beroerder is de herkenning van een spontaan gesprek. Daarvan wordt slechts tweederde correct wordt verstaan. Spraakherkenning wordt hier en daar gebruikt (in operatiekamers, straaljagers en bij reisinformatiesystemen), maar de luisterende computer kan zich nog bij lange niet meten met de mens.

Pascal Wiggers vindt dat het tijd is voor een nieuwe benadering van het probleem, want het verder verfijnen van de bestaande methoden levert marginale verbeteringen op. Hij promoveerde woensdag bij de leerstoel mens-machine interactie van prof.dr. Henk Koppelaar (Elektrotechniek, Wiskunde en Informatica).

Bestaande systemen vallen in twee onderdelen uiteen: het akoestische deel en het taalgedeelte. Het akoestische deel vangt klanken op en vergelijkt die met basisklanken (fonemen) in het geheugen. Dat levert woorden op die met dat klankpatroon overeenkomen. Bijvoorbeeld ‘Tilburg’ en ‘Middelburg’ of ‘graal’, ‘kraal’ en ‘praal’. Het taalgedeelte kiest uit de aangeboden woorden het meest waarschijnlijke op basis van statistiek.

Wiggers heeft niet zoveel op met de statistische benadering. Hij stelt dat de kracht van de methode ook de zwakte is: het gaat meestal goed, maar bij uitzonderingen blijft het systeem miskleunen.

De kans op fouten wordt minder bij een kleinere woordenlijst. Veel systemen brengen daarom het aantal mogelijke termen terug tot een minimum.

Wiggers kiest paradoxaal genoeg voor de inzet van het hele woordenboek en betoogt dat fouten minder worden naarmate het systeem meer ‘weet’ over het gespreksonderwerp. Als je de woorden dokter en zuster hoort, weet je vrijwel zeker dat het over een ziekenhuis gaat.

Woorden zijn net mensen, ze omringen zich bij voorkeur met oude bekenden en vormen zogenaamde ‘clusters’. Wiggers analyseerde de acht miljoen gesproken en uitgeschreven woorden uit vijfduizend opnamen van de Standaardcorpus van de Nederlands-Belgische taal. Hij ontdekte dat slechts 128 clusters genoeg zijn om de taal in te vangen. Clusters vallen niet helemaal samen met onderwerpen, want een groep met Griekse en Latijnse termen bevat ook woorden uit kerkdiensten.

Die clustering helpt bij spraakherkenning. “Al luisterend komen een paar clusters boven drijven,” vertelt Wiggers, “meestal zo’n vijf tot tien van het totaal.” Het taalgedeelte zal in die beperkte groepen naar woorden zoeken. Zo past bij ‘dokter’ en ‘zuster’ eerder ‘kussen’ dan ‘blussen’.

Of de contextgebaseerde spraakherkenning beter presteert dan de machines uit Twente, Leuven, Nijmegen en Gent, zal moeten blijken op de onderlinge wedstrijd N-best 2008 die in augustus wordt gehouden.

@01 infoblokje:P. Wiggers: ‘Modelling context in automatic speech recognition’, 4 juni 2008.

Taalherkenning werkt niet, is het heersende idee. Dat doet geen recht aan de vorderingen van de afgelopen vijftien jaar. Een voorgelezen krantenbericht wordt inmiddels voor 95 procent correct herkend. Maar we ergeren ons vooral aan de fouten die in elke tweede regel voorkomen. Beroerder is de herkenning van een spontaan gesprek. Daarvan wordt slechts tweederde correct wordt verstaan. Spraakherkenning wordt hier en daar gebruikt (in operatiekamers, straaljagers en bij reisinformatiesystemen), maar de luisterende computer kan zich nog bij lange niet meten met de mens.

Pascal Wiggers vindt dat het tijd is voor een nieuwe benadering van het probleem, want het verder verfijnen van de bestaande methoden levert marginale verbeteringen op. Hij promoveerde woensdag bij de leerstoel mens-machine interactie van prof.dr. Henk Koppelaar (Elektrotechniek, Wiskunde en Informatica).

Bestaande systemen vallen in twee onderdelen uiteen: het akoestische deel en het taalgedeelte. Het akoestische deel vangt klanken op en vergelijkt die met basisklanken (fonemen) in het geheugen. Dat levert woorden op die met dat klankpatroon overeenkomen. Bijvoorbeeld ‘Tilburg’ en ‘Middelburg’ of ‘graal’, ‘kraal’ en ‘praal’. Het taalgedeelte kiest uit de aangeboden woorden het meest waarschijnlijke op basis van statistiek.

Wiggers heeft niet zoveel op met de statistische benadering. Hij stelt dat de kracht van de methode ook de zwakte is: het gaat meestal goed, maar bij uitzonderingen blijft het systeem miskleunen.

De kans op fouten wordt minder bij een kleinere woordenlijst. Veel systemen brengen daarom het aantal mogelijke termen terug tot een minimum.

Wiggers kiest paradoxaal genoeg voor de inzet van het hele woordenboek en betoogt dat fouten minder worden naarmate het systeem meer ‘weet’ over het gespreksonderwerp. Als je de woorden dokter en zuster hoort, weet je vrijwel zeker dat het over een ziekenhuis gaat.

Woorden zijn net mensen, ze omringen zich bij voorkeur met oude bekenden en vormen zogenaamde ‘clusters’. Wiggers analyseerde de acht miljoen gesproken en uitgeschreven woorden uit vijfduizend opnamen van de Standaardcorpus van de Nederlands-Belgische taal. Hij ontdekte dat slechts 128 clusters genoeg zijn om de taal in te vangen. Clusters vallen niet helemaal samen met onderwerpen, want een groep met Griekse en Latijnse termen bevat ook woorden uit kerkdiensten.

Die clustering helpt bij spraakherkenning. “Al luisterend komen een paar clusters boven drijven,” vertelt Wiggers, “meestal zo’n vijf tot tien van het totaal.” Het taalgedeelte zal in die beperkte groepen naar woorden zoeken. Zo past bij ‘dokter’ en ‘zuster’ eerder ‘kussen’ dan ‘blussen’.

Of de contextgebaseerde spraakherkenning beter presteert dan de machines uit Twente, Leuven, Nijmegen en Gent, zal moeten blijken op de onderlinge wedstrijd N-best 2008 die in augustus wordt gehouden.

@01 infoblokje:P. Wiggers: ‘Modelling context in automatic speech recognition’, 4 juni 2008.

Redacteur Redactie

Heb je een vraag of opmerking over dit artikel?

delta@tudelft.nl

Comments are closed.