Månadens profil: Ingrid Eliasson
Hur skapar man en artificiell röst som låter som en mänsklig? Ingrid Eliasson, forskningsingenjör på Språkbanken Tal, arbetar med att skapa referens- och testdata för talsyntes.
Berätta om ditt arbete med testdata!
– Talsyntesen ska läsa upp text på ett sätt som låter naturligt, som en människa. För att lyckas med det krävs att talsyntesen uttalar ord rätt, har rätt intonation, betoning, rytm och satsmelodi, till exempel.
Jag arbetar bland annat med att identifiera ord och uttryck som kan vara svåra för en robot att veta hur de ska uttalas. Till exempel har vi i svenskan mängder av partikelverb, det vill säga verb som har en preposition, till exempel ”stå ut” eller ”hitta på”, där betoningen ligger på prepositionen. Vi har även låneord som är en blandning av svenska och engelska, till exempel ”mindfulnessbaserad”. Det är ett ord som är svårt att identifiera automatiskt och då kan man behöva göra en manuell uppmärkning. Andra komplicerade frågor är hur siffror ska läsas upp. Talsyntesen ska säga ”den tolfte” fastän det står 12 i texten. Årtal är också knepiga, ska talsyntesen säga 2005 eller tjugohundrafem? I svenskan finns också många fasta utryck som består av flera ord, till exempel ”det vill säga”, som talsyntesen ska läsa upp med en snabbare rytm, inte som tre olika ord. En annan sak som ställer till med problem är nya ord, till exempel namn på växter eller människor. Vilket uttal är rätt?
Hur går arbetet till?
– Jag samlar artiklar från Wikipedia och noterar vilka ord och uttryck i texten som kan vara svåra för en robot att veta hur de ska uttalas. För att skapa mer data har jag tagit hjälp av ChatGPT som skapat fejkade versioner av olika artiklar. Jag har även gett ChatGPT i uppdrag att skapa följdfrågor till artiklarna med fyra svarsalternativ. Bara ett alternativ är korrekt. Sedan gör vi ett test där en talsyntes läser upp texten som en människa lyssnar på, får frågorna och ska svara vilket alternativ som är det rätta. Det är ett sätt att utvärdera hur väl talsyntesen fungerar.
Tyvärr är det av upphovsrättsliga skäl brist på taldata. För att skapa mer data har vi tagit oss an SweDia 2000, ett projekt där dialekter över hela landet spelades in år 2000. Här finns ett enormt material. Vi har precis börjat att rensa bort känsliga personuppgifter så att vi kan släppa materialet som en forskningsresurs.
Vad driver dig?
– Jag är språkentusiast och särskilt intresserad av tal. Talet är en del av att vara människa och det första språket man lär sig som liten. Det skrivna är konstruerat och i skrivandet finns regler, rätt och fel. Talandet är mer slumpmässigt och svårt att definiera. Tänk på alla saker vi säger som inte är ord; tvekningar, intonation och pauser. Det är svårare att fånga, och därför är det mycket svårare att lära en dator att tala som en människa än att skriva. Just detta, den mänskliga språkförmågan, är något jag vill fortsätta jobba med eller forska kring i framtiden.
Talsyntes
Den första elektroniska talsyntesen, VODER (Voice Operating Demonstrator), utvecklades 1939. Idag är talsyntes en naturlig del av vår vardag. Några exempel:
- Röstassistenter som Siri, Google Assistant och Alexa.
- GPS-enheter och karttjänster.
- Ljudböcker och text-till-tal-funktioner i e-boksläsare.
- Talsyntes för att läsa upp text på skärm.
- Virtuella kundtjänstagenter och telefonrobotar.
- Automatiserade telefonsystem.
- Transkriptionsverktyg med talsyntes för möten.
- Automatiska meddelanden om hållplatser, avgångar och ankomster.
- Varningar och nödmeddelanden under krissituationer.
- Robotar och AI-system.
Publicerad den
Uppdaterad den