Wetenschap

Liplezende computer verstaat de mens beter

Hoe leer je een computer liplezen? Jacek Wojdel bedacht een nieuwe methode, maar er is weinig belangstelling voor.Natuurkunde wilde hij studeren, om met een computer aan moleculen te rekenen.

Maar toen Jacek Wojdel in Polen bij verschillende natuurkundefaculteiten ging kijken, waren er zo weinig computers dat hij prompt zijn jongensdroom inruilde voor een studie informatica. Want daar waren wél genoeg computers. Computers bleven aanstekelijk op Wojdel werken, met als resultaat dat hij over twee weken promoveert bij de basiseenheid data en kennissystemen (EWI). Hier ontwikkelde hij de afgelopen jaren een methode waarmee computers kunnen liplezen.

Liplezende computers zijn bedoeld om spraakherkenning van computers te verbeteren. Computerprogramma’s die met spraak worden bediend zijn bijvoorbeeld dicteerprogramma’s voor rsi-patiënten. Zij vertellen de computer wat ze op papier willen en plop, de zinnen verschijnen op het scherm. ,,Maar een computer herkent woorden slecht, je moet nog steeds correcties aanbrengen”, meent Wojdel.

Een beter begrip kan de computer krijgen door zijn spraakherkenning uit te breiden met liplezen. Bijkomend voordeel is dat een liplezende computer geen last heeft van geluidsoverlast. Dat is dan weer handig in lawaaierige omgevingen – bijvoorbeeld stations waar passagiers in de toekomst niet meer naar een loket gaan voor informatie maar naar de liplezende, luisterende en sprekende computer.

Een computer leren liplezen betekent met name heel veel signalen verwerken. Een webcam neemt de beelden van bewegende lippen op, waarna de data worden gefilterd van ruis zodat alleen de interessante gegevens van lippen, tanden en tong

overblijven.

Als dat klaar is, wordt deze informatie omgezet in een

geschikte datarepresentatie. Grofweg zijn er twee manieren om

die data te verwerken. Sommige onderzoekers gebruiken de exacte contouren van de lippen, anderen gebruiken lipbeelden waarbij geen geometrische informatie is ingebracht.

Wojdels methode hangt ertussen. Het maakt van het gebiedje rondom het midden van de mond een soort radarscan en schat waar de lippen zich bevinden en welke vorm ze hebben. ,,De software die ik heb gemaakt filtert persoonlijke beelden weg, zoals huidskleur en de precieze vorm van de mond. Want dit soort informatie is overbodig voor de computer en maakt de methode onnodig traag”, aldus de onderzoeker.

Kunstmatige zenuwen

Software die de mondbewegingen omzet in data is niet genoeg. De datastroom moet worden herkend zodat de computer de onbegrijpelijke informatie begrijpt. Hiervoor gebruikte Wojdel onder andere kunstmatige neurale netwerken. Zo’n netwerk – gemodelleerd naar onze hersenzenuwen – bestaat uit talloze units (neuronen) en verwerkt complexe informatie.

Verder voorzag Wojdel samen met een student de liplezende computer van zo’n veertienduizend woorden die via geluid en lipbewegingen worden herkend. Het kostte hen twee à drie maanden om een dataset te maken met woorden en zinnen als ‘ik wil zestig piek van mijn rekening overmaken’ of ‘een van de bendeleden is voortvluchtig’.

Het kost veel tijd en geld om een uitgebreide dataset te maken waarin alle woorden van de taal staan. Veel uitgebreide en goede datasets zijn er daarom niet. ,,Het is het kip-en-het-ei-probleem”, zegt Wojdel. ,,Er zijn weinig toepassingen van liplezende computers omdat datasets ontbreken, maar commerciële datasets zijn niet te verkrijgen omdat er geen afzetmarkt is.”

Toch voorspelt Wojdel dat over tien jaar de eerste liplezende

computers op de markt zijn. ,,Maar de eerste vroege vogel is er al. Een mobiele telefoon van het Japanse bedrijf NTT DoCoMo, een prototype waarbij gewone spraakherkenning ondersteund is met liplezen.”

Niemand gaat verder met het werk van Wojdel. ,,Er is geen

belangstelling voor. De markt voor liplezende computers is nog

nieuw. Veel groepen werken eraan, maar er is geen

vergelijkingsmateriaal dus iedereen doet wat hij denkt dat goed is.”

Intussen werkt Wojdel als postdoc een halfjaar bij de sectie toegepaste organische chemie en katalyse (TNW) waar hij rekent aan moleculen, zijn kinderwens. Een totaal ander vakgebied maar niet voor Wojdel. ,,Ik zit nog steeds achter een computer. Alleen de berekeningen zijn anders.”

Hoe leer je een computer liplezen? Jacek Wojdel bedacht een nieuwe methode, maar er is weinig belangstelling voor.

Natuurkunde wilde hij studeren, om met een computer aan moleculen te rekenen. Maar toen Jacek Wojdel in Polen bij verschillende natuurkundefaculteiten ging kijken, waren er zo weinig computers dat hij prompt zijn jongensdroom inruilde voor een studie informatica. Want daar waren wél genoeg computers. Computers bleven aanstekelijk op Wojdel werken, met als resultaat dat hij over twee weken promoveert bij de basiseenheid data en kennissystemen (EWI). Hier ontwikkelde hij de afgelopen jaren een methode waarmee computers kunnen liplezen.

Liplezende computers zijn bedoeld om spraakherkenning van computers te verbeteren. Computerprogramma’s die met spraak worden bediend zijn bijvoorbeeld dicteerprogramma’s voor rsi-patiënten. Zij vertellen de computer wat ze op papier willen en plop, de zinnen verschijnen op het scherm. ,,Maar een computer herkent woorden slecht, je moet nog steeds correcties aanbrengen”, meent Wojdel.

Een beter begrip kan de computer krijgen door zijn spraakherkenning uit te breiden met liplezen. Bijkomend voordeel is dat een liplezende computer geen last heeft van geluidsoverlast. Dat is dan weer handig in lawaaierige omgevingen – bijvoorbeeld stations waar passagiers in de toekomst niet meer naar een loket gaan voor informatie maar naar de liplezende, luisterende en sprekende computer.

Een computer leren liplezen betekent met name heel veel signalen verwerken. Een webcam neemt de beelden van bewegende lippen op, waarna de data worden gefilterd van ruis zodat alleen de interessante gegevens van lippen, tanden en tong

overblijven.

Als dat klaar is, wordt deze informatie omgezet in een

geschikte datarepresentatie. Grofweg zijn er twee manieren om

die data te verwerken. Sommige onderzoekers gebruiken de exacte contouren van de lippen, anderen gebruiken lipbeelden waarbij geen geometrische informatie is ingebracht.

Wojdels methode hangt ertussen. Het maakt van het gebiedje rondom het midden van de mond een soort radarscan en schat waar de lippen zich bevinden en welke vorm ze hebben. ,,De software die ik heb gemaakt filtert persoonlijke beelden weg, zoals huidskleur en de precieze vorm van de mond. Want dit soort informatie is overbodig voor de computer en maakt de methode onnodig traag”, aldus de onderzoeker.

Kunstmatige zenuwen

Software die de mondbewegingen omzet in data is niet genoeg. De datastroom moet worden herkend zodat de computer de onbegrijpelijke informatie begrijpt. Hiervoor gebruikte Wojdel onder andere kunstmatige neurale netwerken. Zo’n netwerk – gemodelleerd naar onze hersenzenuwen – bestaat uit talloze units (neuronen) en verwerkt complexe informatie.

Verder voorzag Wojdel samen met een student de liplezende computer van zo’n veertienduizend woorden die via geluid en lipbewegingen worden herkend. Het kostte hen twee à drie maanden om een dataset te maken met woorden en zinnen als ‘ik wil zestig piek van mijn rekening overmaken’ of ‘een van de bendeleden is voortvluchtig’.

Het kost veel tijd en geld om een uitgebreide dataset te maken waarin alle woorden van de taal staan. Veel uitgebreide en goede datasets zijn er daarom niet. ,,Het is het kip-en-het-ei-probleem”, zegt Wojdel. ,,Er zijn weinig toepassingen van liplezende computers omdat datasets ontbreken, maar commerciële datasets zijn niet te verkrijgen omdat er geen afzetmarkt is.”

Toch voorspelt Wojdel dat over tien jaar de eerste liplezende

computers op de markt zijn. ,,Maar de eerste vroege vogel is er al. Een mobiele telefoon van het Japanse bedrijf NTT DoCoMo, een prototype waarbij gewone spraakherkenning ondersteund is met liplezen.”

Niemand gaat verder met het werk van Wojdel. ,,Er is geen

belangstelling voor. De markt voor liplezende computers is nog

nieuw. Veel groepen werken eraan, maar er is geen

vergelijkingsmateriaal dus iedereen doet wat hij denkt dat goed is.”

Intussen werkt Wojdel als postdoc een halfjaar bij de sectie toegepaste organische chemie en katalyse (TNW) waar hij rekent aan moleculen, zijn kinderwens. Een totaal ander vakgebied maar niet voor Wojdel. ,,Ik zit nog steeds achter een computer. Alleen de berekeningen zijn anders.”

Redacteur Redactie

Heb je een vraag of opmerking over dit artikel?

delta@tudelft.nl

Comments are closed.