Projekt i fokus: Svensk diakronisk trädbank
Hur har svenska språket förändrats från medeltiden till i dag? Nu startar Språkbanken CLARIN arbetet med att ta fram en svensk diakronisk trädbank. Sara Stymne och Eva Pettersson berättar.
I dag finns flera trädbanker för modern svenska. Däremot saknas en syntaktiskt uppmärkt resurs som gör det möjligt att följa hur svenskan har förändrats genom århundradena. Därför har Språkbanken CLARIN startat en arbetsgrupp som utvecklar den första svenska diakroniska trädbanken – en resurs som ska sträcka sig från fornsvenska till 1800-talets språk.
– Grundtanken är att göra det möjligt att studera hur svenska språket har utvecklats över tid. Vilka syntaktiska funktioner har tillkommit och vilka har försvunnit? Det är intressanta frågor för språkhistoriker. Och för oss på Språkbanken CLARIN ger trädbanken möjlighet att bygga bättre verktyg för att analysera äldre texter, berättar Sara Stymne, föreståndare för Språkbanken CLARIN.
Arbetsgruppen bygger vidare på Mathir Träd, en trädbank med fornsvenska texter som tagits fram av Språkbanken Text. Efter hand ska fler texter läggas till från fornsvenska fram till 1800-tal. Till exempel en delmängd av HaCOSSA, en korpus med fornsvensk text, 1864 års strafflag, Nya testamentet från 1526 och Nils Holgersson. Trädbanken kommer att utgöra en delmängd av Svensk diakronisk korpus, en textsamling på flera miljarder ord som rör sig från fornsvenska till nutid. Arbetet innebär flera utmaningar.
– Ett av de stora problemen är att äldre svenska inte följer samma regler som dagens språk. Meningarna kunde vara över hundra ord långa och skiljetecken användes inte konsekvent. Därför är en av de första utmaningarna att bestämma var en mening börjar och slutar. Vi behöver också komma fram till hur vi ska konvertera materialet så att det blir likriktat i trädbanken, säger Eva Pettersson, biträdande föreståndare för Språkbanken CLARIN.
Svensk diakronisk trädbank kommer att annoteras enligt Universal Dependencies-standarden. Det innebär att den blir kompatibel dels med de moderna svenska trädbankerna som finns där, men även med över 200 trädbanker för andra språk, både moderna och historiska.
Kort om trädbanker
En trädbank är en språklig resurs där meningar är analyserade och representerade i form av trädstrukturer. Syftet är att visa hur orden i en mening hänger ihop grammatiskt. Varje mening i en trädbank är därför försedd med information om satsdelar, ordklasser och syntaktiska relationer. Texterna analyseras och märks upp för att visa deras grammatiska egenskaper, identifiera ordklasser och visa hur orden är sammankopplade för att bilda meningar. Den syntaktiska strukturen, alltså meningsbyggnaden, kan visualiseras som ett "träd". Trädbanker används inom språkteknologi och lingvistik, till exempel för att utveckla maskinöversättning, taligenkänning och grammatikkontroller.
Svensk diakronisk trädbank
Svensk diaktronisk trädbank tas fram av Sara Stymne, Eva Pettersson och Astrid Berntsson Ingelstam (SB CLARIN), Lars Ahrenberg (Linköpings universitet), Lars Borin (SB Text), Joakim Nivre (Uppsala universitet) och Erik Petzell (SB Sam).

En mening från Mathir träd, konverterad till Universal Dependencies.
Publicerad den
Uppdaterad den