Wetenschap

Een plofgeluid wil ook herkend kunnen worden

Voor het gebruik van digitale communicatiesystemen moet de menselijke stem omgezet worden in enen en nullen. Hiervoor bestaat een aantal methoden. Dr.i

r. Johan Erkelens vergeleek alternatieven voor verschillende codeerstappen om tot een standaard te komen. Hij promoveerde afgelopen donderdag bij de vakgroep signaalverwerking van de faculteit Technische Natuurkunde. ,,Bij militaire toepassingen maakt het niet zoveel uit wie het zegt.”


Figuur 1 Een regulier telefoontoestel haalt op de schaal van de ‘mean opinion score’ een vier

Erkelens: ,,De menselijke spraak bestaat uit klinkers en medeklinkers. De klinkers ontstaan door resonantie van de neus-en mondholte. Deze resonantiefrequenties worden aangeslagen door het periodieke openen en sluiten van de stembanden. Medeklinkers als de s en de f worden gevormd door vernauwing van de mondholte en de hieruit voortkomende turbulente luchtstroom. De k en de p onstaan door een opstopping van de lucht en zijn eigenlijk een soort plofgeluiden.”

De eisen van de telecommunicatiemaatschappijen aan de codes zijn duidelijk: de kwaliteit van het signaal moet goed blijven en zo goedkoop mogelijk verstuurd kunnen worden. Verder mag er niet teveel vertraging tussen spreker en ontvanger zijn, dus geen langdurige en ingewikkelde berekeningen.

Bij de telefonie ligt de interessante informatie op een beperkt deel van het spectrum: de frequentie van de menselijke stem tijdens het spreken ligt tussen de tweehonderd en vierduizend Hertz. Bij mobiele radio loopt het relevante spectrum tot achtduizend Hertz. Er moet hier dus een groter deel van het spectrum gecodeerd worden om tot een getrouwe weergave van het digitale signaal te komen.

Op dit moment is het technisch mogelijk om een redelijke kwaliteit van het doorgestuurde signaal te verwezenlijken met 2400 bits per seconde. Ongeveer dertig keer minder dan een gemiddelde modem. Vroeger was die standaard twee keer zo hoog, maar wat is ‘vroeger’ eigenlijk in deze snel veranderende wereld. De eis bij het verminderen van het aantal bits is dat het gereconstrueerde signaal dezelfde kwaliteit houdt. Erkelens: ,,Als je aan het telefoneren bent, wil je toch ook graag horen wie er aan de andere kant van de lijn is. Behalve bij militaire toepassingen: daar maakt het niet zo veel uit wie het zegt.”
Accent

Om de kwaliteit van een signaal te meten zijn er verschillende methoden en classificaties ontwikkeld. Er wordt gebruik gemaakt van de ‘mean opinion score’. Bij deze methode moet een groep van proefpersonen een cijfer tussen een en vijf geven voor het verschil tussen origineel en gecodeerd signaal. Zij doen dit door te luisteren naar verschillende ‘schone zinnen’ (zonder achtergrondruis) en zinnen uitgesproken in een rijdende auto, tijdens een vergadering en in een drukke stad. De huidige telefoon haalt op deze schaal een vier. Erkelens: ,,Je kijkt met codering tot vier Kilohertz, de rest laat je weg.Dat kost altijd kwaliteit.”

Erkelens heeft bij zijn metingen gebruik gemaakt van een database met (Amerikaanse) standaardzinnen. Deze zinnen werden uitgesproken door Amerikanen
uit alle windstreken. ,,De invloed van taal of accent is groot. Bij het kwantiseren van de spraak moet je hiermee rekening houden en je moet je model hierop testen en aanpassen. Bij internationale telefoonlijnen moet je een andere, grotere database gebruiken als bij een regionale Chinese lijn.” Ruis

Tijdens zijn onderzoek vergeleek Erkelens een aantal modellen. ,,De diverse coderingsmogelijkheden zijn onafhankelijk van elkaar ontwikkeld door verschillende producenten. Elk heeft zijn voor-en nadelen. Ik heb getracht te onderzoeken waarom die methoden zo succesvol blijken en hoe ze nog verder te verbeteren zijn.”

Bij het zogenaamde autoregressieve model wordt het signaal op een bepaald tijdstip berekend met behulp van parameters die verkregen zijn uit een aantal voorafgaande samples. Verder is er een code die het signaal als som van een aantal sinussen beschrijft (sinusoidal transform coding) en een code die in het frequentiedomein werkt (multiband excitation). Deze beide methoden zijn echter afgeleid van de autoregressieve modellering.

Tussen de verschillende methoden bestaat volgens Erkelens weinig verschil in kwaliteit. ,,Het autoregressieve model is het best bestand tegen ruis en lijkt het meest geschikt voor vele soorten signalen en klanken. Omdat het een wat oudere methode is zijn bovendien alle ins en outs bekend. Een nadeel van deze methode is dat het gebaseerd is op het detecteren van pieken in het signaal en niet op dalen, die bijvoorbeeld bij neusklanken, zoals de m en de n een grote rol spelen. Je kunt voor die klanken beter een ander model gebruiken.”

Volgens Erkelens is de bitrate in de toekomst nog verder omlaag te schroeven: ,,Het is mogelijk de stiltes tussen de woorden te detecteren en niet mee te coderen. Verder moet er onderzocht worden welke fouten in het signaal toelaatbaar zijn en welke niet. Bij het coderen van een signaal is het bijvoorbeeld erg handig om de frequentie van het stembandtrillen constant of lineair oplopend te maken. De invloed van een dergelijke verandering op de kwaliteit van het signaal moet dan wel bekeken worden.”

Marc ter Beek

Voor het gebruik van digitale communicatiesystemen moet de menselijke stem omgezet worden in enen en nullen. Hiervoor bestaat een aantal methoden. Dr.ir. Johan Erkelens vergeleek alternatieven voor verschillende codeerstappen om tot een standaard te komen. Hij promoveerde afgelopen donderdag bij de vakgroep signaalverwerking van de faculteit Technische Natuurkunde. ,,Bij militaire toepassingen maakt het niet zoveel uit wie het zegt.”


Figuur 1 Een regulier telefoontoestel haalt op de schaal van de ‘mean opinion score’ een vier

Erkelens: ,,De menselijke spraak bestaat uit klinkers en medeklinkers. De klinkers ontstaan door resonantie van de neus-en mondholte. Deze resonantiefrequenties worden aangeslagen door het periodieke openen en sluiten van de stembanden. Medeklinkers als de s en de f worden gevormd door vernauwing van de mondholte en de hieruit voortkomende turbulente luchtstroom. De k en de p onstaan door een opstopping van de lucht en zijn eigenlijk een soort plofgeluiden.”

De eisen van de telecommunicatiemaatschappijen aan de codes zijn duidelijk: de kwaliteit van het signaal moet goed blijven en zo goedkoop mogelijk verstuurd kunnen worden. Verder mag er niet teveel vertraging tussen spreker en ontvanger zijn, dus geen langdurige en ingewikkelde berekeningen.

Bij de telefonie ligt de interessante informatie op een beperkt deel van het spectrum: de frequentie van de menselijke stem tijdens het spreken ligt tussen de tweehonderd en vierduizend Hertz. Bij mobiele radio loopt het relevante spectrum tot achtduizend Hertz. Er moet hier dus een groter deel van het spectrum gecodeerd worden om tot een getrouwe weergave van het digitale signaal te komen.

Op dit moment is het technisch mogelijk om een redelijke kwaliteit van het doorgestuurde signaal te verwezenlijken met 2400 bits per seconde. Ongeveer dertig keer minder dan een gemiddelde modem. Vroeger was die standaard twee keer zo hoog, maar wat is ‘vroeger’ eigenlijk in deze snel veranderende wereld. De eis bij het verminderen van het aantal bits is dat het gereconstrueerde signaal dezelfde kwaliteit houdt. Erkelens: ,,Als je aan het telefoneren bent, wil je toch ook graag horen wie er aan de andere kant van de lijn is. Behalve bij militaire toepassingen: daar maakt het niet zo veel uit wie het zegt.”
Accent

Om de kwaliteit van een signaal te meten zijn er verschillende methoden en classificaties ontwikkeld. Er wordt gebruik gemaakt van de ‘mean opinion score’. Bij deze methode moet een groep van proefpersonen een cijfer tussen een en vijf geven voor het verschil tussen origineel en gecodeerd signaal. Zij doen dit door te luisteren naar verschillende ‘schone zinnen’ (zonder achtergrondruis) en zinnen uitgesproken in een rijdende auto, tijdens een vergadering en in een drukke stad. De huidige telefoon haalt op deze schaal een vier. Erkelens: ,,Je kijkt met codering tot vier Kilohertz, de rest laat je weg.Dat kost altijd kwaliteit.”

Erkelens heeft bij zijn metingen gebruik gemaakt van een database met (Amerikaanse) standaardzinnen. Deze zinnen werden uitgesproken door Amerikanen
uit alle windstreken. ,,De invloed van taal of accent is groot. Bij het kwantiseren van de spraak moet je hiermee rekening houden en je moet je model hierop testen en aanpassen. Bij internationale telefoonlijnen moet je een andere, grotere database gebruiken als bij een regionale Chinese lijn.” Ruis

Tijdens zijn onderzoek vergeleek Erkelens een aantal modellen. ,,De diverse coderingsmogelijkheden zijn onafhankelijk van elkaar ontwikkeld door verschillende producenten. Elk heeft zijn voor-en nadelen. Ik heb getracht te onderzoeken waarom die methoden zo succesvol blijken en hoe ze nog verder te verbeteren zijn.”

Bij het zogenaamde autoregressieve model wordt het signaal op een bepaald tijdstip berekend met behulp van parameters die verkregen zijn uit een aantal voorafgaande samples. Verder is er een code die het signaal als som van een aantal sinussen beschrijft (sinusoidal transform coding) en een code die in het frequentiedomein werkt (multiband excitation). Deze beide methoden zijn echter afgeleid van de autoregressieve modellering.

Tussen de verschillende methoden bestaat volgens Erkelens weinig verschil in kwaliteit. ,,Het autoregressieve model is het best bestand tegen ruis en lijkt het meest geschikt voor vele soorten signalen en klanken. Omdat het een wat oudere methode is zijn bovendien alle ins en outs bekend. Een nadeel van deze methode is dat het gebaseerd is op het detecteren van pieken in het signaal en niet op dalen, die bijvoorbeeld bij neusklanken, zoals de m en de n een grote rol spelen. Je kunt voor die klanken beter een ander model gebruiken.”

Volgens Erkelens is de bitrate in de toekomst nog verder omlaag te schroeven: ,,Het is mogelijk de stiltes tussen de woorden te detecteren en niet mee te coderen. Verder moet er onderzocht worden welke fouten in het signaal toelaatbaar zijn en welke niet. Bij het coderen van een signaal is het bijvoorbeeld erg handig om de frequentie van het stembandtrillen constant of lineair oplopend te maken. De invloed van een dergelijke verandering op de kwaliteit van het signaal moet dan wel bekeken worden.”

Marc ter Beek

Redacteur Redactie

Heb je een vraag of opmerking over dit artikel?

delta@tudelft.nl

Comments are closed.