Månadens profil: Lina Lejdebro Enwald

Hur tar man fram språkteknologi för ett språk med få resurser? Lina Lejdebro Enwald, datalingvist på Språkbanken Sam, utvecklar just nu en språkmodell för meänkieli och liknar arbetet med att lägga ett enormt pussel.

Vad händer just nu?

Giellatekno vid universitetet i Tromsö har skapat en grund för en språkmodell för meänkieli som jag och Elina Kangas, språkvårdare i meänkieli på Isof, vidareutvecklar så att den på sikt ska kunna användas exempelvis som stavningskontroll. Just nu går vi systematiskt igenom ordklass för ordklass och tittar på olika böjningsgrupper för att få med allt. Vi har kommit ganska långt, men det är också väldigt mycket som återstår. Och varje vecka hittar vi nya lingvistiska fenomen.

Vilka utmaningar finns?

– Flera! Stora datadrivna modeller, som exempelvis ChatGPT bygger på, tränas på mängder av text och ”lär sig” språk ungefär som ett barn – genom att överösas med språkexempel. För mindre språk, som de nationella minoritetsspråken, finns det inte alls lika mycket text att tillgå. Meänkieli till exempel har inte ens en tiotusendel så mycket skriven text som svenskan. Så vi kan inte träna en modell, utan använder en äldre typ av språkteknologi som innebär att man istället manuellt skriver dataläsbara regler för språket. Man formulerar regler för hur orden böjs och för de ljud- och stavningsförändringar som uppstår. Det gör att arbetet blir väldigt tidskrävande.

En annan utmaning är att meänkieli ännu inte är så noggrant beskrivet. Fram till nu har det inte funnits någon omfattande beskrivande grammatik för språket, men två forskare vid Uppsala universitet, Riitta-Liisa Valijärvi och Rogier Blokland, arbetar just nu med en deskriptiv grammatik för meänkieli, och det kommer att vara till stor hjälp när det arbetet är klart.

Vidare har meänkieli stor variation. Det finns ofta flera sätt att böja orden och många synonymer. Dessutom är variationen stor vad gäller stavning – språket är inte helt standardiserat. Det gör det förstås ännu svårare att formulera regler för språkmodellen. Vi använder alla källor som finns ordböcker, korpusar och grammatikböcker, och inte minst språkbärare. Vi arbetar med att bygga upp en referensgrupp för att få ännu mer input.

Hur ska språkmodellen användas?

– Första steget är att integrera delar av språkmodellen i den digitala Meänkieli-svenska-meänkieli ordboken så att det blir möjligt att se hur ord böjs när man slår upp dem. Det är viktigt både för dem som vill återta språket och är osäkra på böjningsformer, och för dem som precis har börjat lära sig meänkieli. Nästa steg är att modellen ska bli mer användbar som stavningskontroll. Projektet ska vara klart om två år, så förhoppningsvis har vi kommit långt då.

Vad driver dig?

– Dels såklart att det känns meningsfullt att ta fram språkteknologi som många kan ha nytta av, men också att meänkieli ett så fascinerande språk. Det är nära besläktat med finska och kvänska men är präglat av svenskan, vilket gör det unikt och spännande. Det är också intressant att arbeta med ett relativt obeskrivet språk. Hela tiden dyker det upp nya fenomen och språkdrag som vi måste försöka formulera regler för. Att jobba med språkmodellen är ungefär som att lösa ett enormt pussel.

Språkteknologi för meänkieli

Institutet för språk och folkminnen (Isof) fick i juni 2025 i uppdrag av regeringen att stärka arbetet med språkteknologi och språkvård för meänkieli. I uppdraget ingår bland annat att bygga upp språkmodeller för att stärka språkets digitala tillgänglighet. Syftet med uppdraget är att främja meänkieli genom att utveckla språkteknologin för språket och på det sättet också stärka språkvården. Språkbanken Sam ansvarar för arbetet.

Läs mer om arbetet med en deskriptiv grammatik för meänkieli.

 

Publicerad den

Uppdaterad den

Språkbanken Sam
Språkteknologi
Lina Lejdebro Enwald, datalingvist på Språkbanken Sam

Lina Lejdebro Enwald, datalingvist på Språkbanken Sam. Foto: Mira Enwald Ekström.