Svenska flerordsuttryck i PARSEME

Flerordsuttryck som ”gå upp” och ”ge sig sjutton på” är en typ av språkliga konstruktioner som ofta skapar problem både för människor och språkteknologiska system. Därför behövs tydliga riktlinjer för annotering. Sara Stymne, föreståndare för Språkbanken CLARIN, leder arbetet med annotering av svenska flerordsuttryck inom det europeiska forskningsnätverket PARSEME.

Berätta om arbetet inom PARSEME!

– Flerordsuttryck är kombinationer av ord där betydelsen inte går att räkna ut från de enskilda orden, som “gå upp”, ”ge sig sjutton på” eller ”kalla fakta”. De är viktiga att förstå både för människor som lär sig språk och för språkteknologiska system. Inom PARSEME utvecklar vi resurser och riktlinjer för flerordsuttryck som fungerar för flera språk. Språkbanken CLARIN ansvarar för de svenska resurserna. Vi märker upp flerordsuttryck i texter och tar fram riktlinjer för hur annoteringen ska göras. Syftet är att skapa data som kan användas för att träna och utvärdera system.

Vilka är de största utmaningarna i svenskan?

– En utmaning är att skilja mellan partiklar och prepositioner. I meningen “Jag hälsade på Anna igår” visar intonationen betydelsen i tal, men det framgår inte i skrift. Svenskan har också många sammansatta ord, som “bergskedja”, som skiljer sig från språk som engelskan där motsvarande uttryck skrivs som flera ord. Då uppstår frågan om ”bergskedja” ska räknas som ett flerordsuttryck eller inte. Dessutom skrivs partikelverb och deras avledningar ibland ihop och ibland isär, som “hälsa på” och “påhälsning”. Här vill vi skapa konsekventa riktlinjer för annotering.

Vad händer just nu?

– I våras annoterade jag, Eva Pettersson och Astrid Berntsson Ingelstam svenska data för en shared task vid workshoppen MWC 2026 i Marocko. Där presenterade vi även en överblick över de svenska resurserna, hur de har utvecklats och vilka utmaningar vi stött på. Vi diskuterade också riktlinjer för annotering och hur de behöver anpassas för svenska, till exempel när det gäller partikelverb och flerordstoken. Testdata har nu släppts.

Vi arbetar även med parafrasering, det vill säga att skapa varianter av meningar där flerordsuttrycket formuleras om. Data släpps senare i år. Framöver planerar vi att delta i arbetet med fler shared tasks och fortsätta utveckla arbetet med parafraser. Våra annoteringar av flerordsenheter har gjorts för två av de svenska trädbankerna i Universal Dependencies-projektet, som omfattar morfosyntaktisk annotering. Senare i vår kommer de att släppas även där, för att berika den befintliga annoteringen.

PARSEME

PARSEME (PARSing and Multiword Expressions) är ett europeiskt forskningsnätverk som fokuserar på automatisk identifiering och tolkning av flerordsuttryck i olika språk. Syftet är att förbättra automatisk identifiering och tolkning av flerordsuttryck och ta fram gemensamma riktlinjer och annoteringsstandarder. Forskningsnätverket bygger flerspråkiga, annoterade korpusar, utvecklar gemensamma riktlinjer för annotering och arrangerar så kallade shared tasks för att driva utvecklingen av NLP-system.

PARSEME startade som en COST Action (2013–2017). Arbetet utvecklas vidare inom UniDive COST Action (2022–2026).

Riktlinjer för PARSEME-annotering Länk till annan webbplats.

PARSEME Wiki Länk till annan webbplats.

UniDive, ett tvärvetenskapligt vetenskapligt nätverk för språkteknologi Länk till annan webbplats.

Läs mer om Språkbankens arbete med flerordsuttryck

Svenska flerordsuttryck i PARSEME Länk till annan webbplats.

Språkbankens testdata Länk till annan webbplats.

MWE workshop 2026 Länk till annan webbplats.

Shared task 2026 data Länk till annan webbplats.

 

Publicerad den

Uppdaterad den

Språkbanken CLARIN
Språkteknologi
Sara Stymne, föreståndare för Språkbanken CLARIN.

Sara Stymne, föreståndare för Språkbanken CLARIN. Foto: Ivar Stymne.