Grafeem-naar-foneemconversie door middel van neurale netwerken
Grafeem-naar-foneemconversie (G2P) is een belangrijke module in text-to-speech en spraakherkenning. Het doel is om de uitspraak van een zin in fonetisch schrift te vinden, gegeven de geschreven tekst. De uitspraak van klinkers en medeklinkers is helaas niet eenduidig. Zo wordt bijvoorbeeld de letter ‘e’ in het woord ‘december’ drie keer verschillend uitgesproken. Bovendien bestaan er ook woorden die afhankelijk van de context van de zin anders worden uitgesproken (denk maar aan régent – regént, áppel – appél).
De huidige implementatie van de G2P-module bij Nuance Communications (het bedrijf waarbij de masterproef werd uitgevoerd) gebruikt een woordenboek en een ketting van linguïstische regels voor woorden die niet in het woordenboek voorkomen. Die regels moeten manueel door taalexperts ingegeven worden en vormen een kostelijk, suboptimaal geheel.
Door de grote hoeveelheid aanwezige data en dankzij de opmars van neurale netwerken voor taalverwerking, kan de volledige G2P stap in zijn geheel vervangen worden door een artificieel neuraal netwerk. Na grondige studie van en experimentatie met verschillende types neurale netwerken, resulteert het beste model in een significante stijging in nauwkeurigheid van G2P-conversie. Voor de twee talen waarmee geëxperimenteerd werd, Kroatisch en Turks, bleek klemtoon het moeilijkst te voorspellen. Klemtoon is een zeer intuïtief gegeven dat moeilijk in regels vast te leggen is, dus dit gedrag was te verwachten. Andere linguïstische aspecten zoals correcte uitspraak van klinkers en medeklinkers en zelfs voorspelling van lettergreepgrenzen werden correct gemodelleerd door het neuraal netwerk.