Månadens profil: Astrid Berntsson Ingelstam
Hur kan en medeltida, satirisk handskrift om en abbott bidra till att utveckla ny språkteknologi? Astrid Berntsson Ingelstam, forskningsassistent inom Språkbanken CLARIN, arbetar just nu med att ta fram trädbanken UD_Swedish-Old. Syftet är att skapa möjligheter både för språkforskning och för utveckling av nya språkanalysverktyg.
Vad gör du på jobbet?
– Jag arbetar på olika sätt med att tillgängliggöra språkliga data. Till exempel arbetar jag med trädbanken UD_Swedish-Old. Trädbanken bygger bygger vidare på Mathir Träd, en trädbank som tagits fram av Språkbanken Text och som innehåller fornsvenska texter från 1200-talet till 1500-talet. Nu konverterar vi materialet till standarden Universal Dependencies (UD). Det gör trädbanken kompatibel både med moderna svenska trädbanker och med över 200 trädbanker för andra språk, både nutida som historiska.
En första version släpptes i november. Än så länge innehåller den bara en text: ”Här sigx aff abotum allum skemptan mykla”, en satirisk skrift om abbotar. Fler texter ska läggas till. Just nu arbetar jag med att konvertera Pentateukparafrasen, en parafras av moseböckerna.
En trädbank möjliggör jämförelser mellan språk. Ett annat syfte är att använda språkresurserna för att testa och utveckla nya verktyg för språkanalys. Vissa trädbanker är så stora att de kan användas för att träna verktyg som automatiskt annoterar text, fast där är vi inte ännu.
Vad är svårast – och mest intressant?
– Att förstå materialet är inte helt lätt eftersom det innehåller ord och referenser till platser och namn som inte längre finns. Fornsvenskan har dessutom en annan ordföljd och meningsuppbyggnad än dagens svenska. En utmaning är därför att inte göra en modern tolkning utan att dechiffrera vad den fornsvenska texten faktiskt motsvarar i dagens svenska. En annan utmaning är själva konverteringen till UD-formatet och att se till att annoteringen blir korrekt.
Det mest intressanta är att se hur mycket svenska språket har förändrats. Det finns så många skillnader mellan medeltidens svenska och nutidens att de nästan ter sig som två olika språk. Fornsvenskan har till exempel morfologiska drag som påminner mer om dagens isländska än om svenska.
Vad händer framöver?
– En hel del. Jag ska tillgängliggöra en korpus från år 2000 med svensk dramadialog som hittills inte funnits tillgänglig på internet. Jag arbetar även med ett projekt om flerordsuttryck tillsammans med Eva Pettersson och Sara Stymne på Språkbanken CLARIN som vi ska presentera på en workshop om flerordsuttryck, 22nd Workshop on Multiword Expressions, som hålls i samband med konferensen för den europeiska avdelningen av Association for Computational Linguistics (EACL) i mars. På sikt finns även tankar om att skapa en trädbank för nysvenska.
Vad driver dig?
– Det är intressant att tillgängliggöra resurser så att de kan användas. När äldre texter möter språkteknologi får vi nya insikter om det gamla, och samtidigt kan äldre texter bidra till utvecklingen av ny språkteknologi. Det är väldigt spännande.
Om trädbanker
En trädbank är en språklig resurs där meningar är analyserade och representerade i form av trädstrukturer. Syftet är att visa hur orden i en mening hänger ihop grammatiskt. Varje mening i en trädbank är därför försedd med information om satsdelar, ordklasser och syntaktiska relationer. Texterna analyseras och märks upp för att visa deras grammatiska egenskaper, identifiera ordklasser och visa hur orden är sammankopplade för att bilda meningar. Den syntaktiska strukturen, alltså meningsbyggnaden, kan visualiseras som ett "träd".
UD_Swedish-Old
Konverteringen från Mathir Träd till UD har utförts av Astrid Berntsson Ingelstam och Joakim Nivre, med stöd av Lars Ahrenberg, Gerlof Bouma, Lars Borin, Erik Magnusson Petzell, Eva Pettersson och Sara Stymne.
Utforska UD_Swedish-Old Länk till annan webbplats.
Utforska Mathir träd Länk till annan webbplats.
Fler svenska trädbanker
UD Swedish_LinES Länk till annan webbplats.. En svensk del av LinES-parallelträdbanken där alla segment är översättningar från engelska med UD-annoteringar från olika textgenrer som litteratur, manualer och Europarl-data. h
Talbanken Länk till annan webbplats.. En svensk trädbank baserad på prosa från Talbanken (1976) med cirka 6 000 meningar och UD-annoteringar av texter från läromedel till tidningsartiklar.
UD Swedish SweLL Länk till annan webbplats.. En parallell trädbank baserad på SweLL-korpusen med 510 meningar skrivna av vuxna andraspråksinlärare av svenska.
Utforska alla UD-trädbanker Länk till annan webbplats..
Publicerad den
Uppdaterad den

Astrid Bertnsson Ingelstam, forskningsassistent på Språkbanken CLARIN. Foto: Privat.