Månadens profil: Felix Morger
Vad säger språkmodeller om mänskligt språk? Det är en fråga som intresserar Felix Morger, doktorand och snart forskningsingenjör på Språkbanken Text.
Vad gör du just nu?
– Jag arbetar på min avhandling som handlar om att utvärdera och tolka stora språkmodeller. Vilka språkförmågor har de och hur kan man mäta dem? Jag har bland annat studerat om människor och språkmodeller fokuserar på samma ord när de läser samma text, vilka språkliga fenomen som kan överföras från engelska till svenska i stora språkmodeller och hur bra språkmodeller kan förutspå språklig variation, till exempel inkludera ”att” eller inte efter "kommer".
En preliminär slutsats är att resultaten man får från utvärdering och analys av stora språkmodeller är starkt beroende av datan man använder. För att bättre kunna förstå resultaten måste man göra en korpusstatistisk analys av datan man använder, vilket också möjliggör jämförelser mellan dataseten.
Jag jobbar även med att tillgängliggöra Språkbanken Texts språkresurser på Huggingface. Huggingface erbjuder resurser med öppen källkod och gör det enklare för alla som vill träna en språkmodell att ladda ner data. På så sätt hoppas vi att våra resurser kan komma till ännu större nytta.
Vad händer framöver?
– I min roll som forskningsingenjör ska jag fortsätta att utveckla SuperLim, en datasamling som kan användas för att testa och utvärdera svenska språkmodeller. Stora språkmodeller som ChatGPT och Bert är tränade för att kunna lösa en rad olika uppgifter. För att utvärdera hur bra modellerna förstår språk har vi tagit fram en samling med 15 olika uppgifter. Till exempel: Hur ställer sig författaren till invandring? Eller: Är det här korrekt svenska? Tanken är nu att integrera den typ av analys man kan göra med SuperLim i de verktyg vi har på Språkbanken Text, till exempel Sparv.
Jag ska även delta i en workshop på LREC-COLING 2024 och presentera en resurs som heter SweDiagnostics. För att träna språkmodeller krävs otroligt mycket data. Det gör att språk med mindre mängd data, till exempel svenskan, behöver träna på engelska data. Förenklat kan man säga att SweDiagnostics utvärderar en modells förmåga att lära sig olika språkliga fenomen, och eftersom det är en parallell översättning av en engelsk resurs kan man använda den för att mäta hur bra överföringen fungerar från engelska till svenska. SweDiagnostics kan också användas för att testa hur språkmodeller hanterar språkliga fenomen, dubbelnegation till exempel eller tvetydighet i en text.
Vad driver dig?
– Jag arbetar med praktiska uppgifter, men är också intresserad av de filosofiska frågorna bakom. Vad säger språkmodellerna om mänskligt språk i allmänhet? Genom att testa artificiella modeller och se vilka uppgifter de kan lösa får vi insikt om hur språk fungerar, till exempel språklig variation. Det tycker jag är väldigt intressant.
SuperLim
SuperLim är en datasamling som kan användas för att testa och utvärdera svenska språkmodeller. Projektet är ett samarbete mellan Språkbanken Text, KB-labb, forskningsinstitutet RISE och AI Sweden och använder en strategi för utvärdering som delvis följer den engelska förlagan SuperGlue.
Publicerad den
Uppdaterad den