Månadens profil: Mats Wirén
Hur kan språkteknologi för teckenspråk utvecklas? Det intresserar Mats Wirén, professor emeritus inom datorlingvistik och samordnare för teckenspråksmodulen som nu startat inom Språkbanken Clarin.
Varför har ni startat teckenspråksmodulen?
– Det finns två anledningar. Teckenspråk kämpar fortfarande i uppförsbacke när det gäller forskningsinfrastruktur som korpusar och lexikon. Det tog lång tid innan teckenspråk erkändes som riktiga språk med fonetik, dvs system av minimala betydelseskiljande element som bygger upp tecken på samma sätt som fonem bygger upp ord i talade språk. Sverige var faktiskt det första landet i världen som officiellt erkände teckenspråk som de dövas språk, men det skedde först 1981. Att Sverige var tidigast kan vi till stor del tacka Brita Bergman för, pionjär för teckenspråksforskning i Sverige, världens första professor i teckenspråk och numera emerita på vår institution.
Vidare är teckenspråk knepigare att annotera än andra språk. För teckenspråk används video som data. Det forskas mycket på automatisk analys av teckenspråksvideo, men ännu är tekniken inte mogen så annoteringen måste göras manuellt. Det finns ett bra system för manuell videoannotering, ELAN, som vi använder, men det är fortfarande mer tidsödande att annotera video än text. En uppskattning som vi brukar göra är att en minut video tar 100 minuter att annotera.
Vad händer just nu?
– Vi började planera verksamheten i höstas och stötte genast på ett problem. Teckenspråksvideo är personuppgifter enligt GDPR, och det var inte tillåtet att ha forskningsinfrastrukturer som lämnar ut personuppgifter. I teckenspråk har inte bara handrörelser betydelse, utan även sådant som ansiktsuttryck, blinkningar och ögonbrynshöjningar. Det går inte att maska bort i en videoinspelning. Men den 1 januari i år kom en ny lag, Lagen om vissa forskningsdatabaser, som säger att man kan ansöka hos regeringen om att få inrätta en sådan infrastruktur, så nu arbetar vi med en sådan ansökan som vi ska skicka in snart.
Hur ser planerna ut framöver?
– Vi ska arbeta med språkteknologi för teckenspråk och ambitionen är att öka takten i utvidgandet av lexikonet och korpusen för svenskt teckenspråk. Korpusen har idag 190 000 teckenförekomster, det är bara småpotatis i jämförelse med vad som finns för text i Korp. Så vi ska göra nya videoinspelningar och annotera dem och den nya vokabulären vi får lägger vi därefter in i lexikonet, utöver annat som kommer till.
Vad driver dig?
– Vi har haft teckenspråk med i vår SU-nod ända sedan Språkbanken Clarin startade 2014. Bland annat skapade vi 2017 den första trädbanken för ett teckenspråk i trädbankssamlingen Universal Dependencies där det nu finns över 160 språk representerade. Dock har vi hela tiden fått göra sådant i konkurrens med insatser för textdata som är det vi annars sysslar mest med. Men i den tredje fasen av Språkbanken Clarin som startade i år så har vi för första gången fått utpekade pengar för teckenspråk, så det är väldigt kul att få vara med om det.
Det ska också bli intressant att följa utvecklingen av stora språkmodeller för hantering av teckenspråk. Vid KTH pågår ett projekt, SIGNBOT, där man försöker skapa avatarer som kan översätta mellan text och teckenspråk. Om några år kanske vi kan börja automatisera delar av annoteringsarbetet.
Teckenspråksmodulen
Medarbetare är Mats Wirén och Johanna Mesch, professor i teckenspråk vid Institutionen för lingvistik, Stockholms universitet. Framöver ska ett antal annoterare anställas. Modulen samarbetar även med teckenspråksavdelningen på Institutionen för lingvistik, Stockholms universitet.
Svensk teckenspråkskorpus
Korpusen består för närvarande av 24 timmar video med 190 000 teckenförekomster och annoteringar på flera hierarkiska nivåer. Korpusen möjliggör presentation och analys av tecken, meningar eller hela texter i språkundervisning. Dessutom är korpusundersökningar och möjligheten att analysera teckenspråksgrammatik av stor betydelse för framtida teckenspråksforskning, inklusive områden som sociolingvistik, historisk lingvistik, översättningsstudier och kulturstudier.
Läs mer om Svensk teckenspråkskorpus Länk till annan webbplats.
Utforska korpusen Länk till annan webbplats.
Svenskt teckenspråkslexikon
I dag innehåller lexikonet 21 734 tecken. Dokumentationen av det svenska teckenförrådet görs inom lexikonverksamheten på Avdelningen för teckenspråk, Institutionen för lingvistik vid Stockholms universitet.
Utforska Svenskt teckenspråkslexikon Länk till annan webbplats.
Utforska trädbanken Universal Dependencies Länk till annan webbplats.
Publicerad den
Uppdaterad den

Mats Wirén, professor emeritus inom datorlingvistik och samordnare för teckenspråksmodulen inom Språkbanken Clarin. Foto: Charlotta Stensson.