Projekt i fokus: SWENER-1800
Hur får man en AI att förstå texter från 1700-talet – med äldre stavning och personnamn som "Anders i Hult"? Med hjälp av SWENER-1800, ett dataset som ger forskare helt nya möjligheter. Eva Pettersson, biträdande föreståndare för Språkbanken CLARIN och Erik Lenas, Lead Data Scientist på Riksarkivets AI-labb har tagit fram SWENER-1800.
Berätta om SWENER-1800!
– SWENER-1800 är ett dataset för namnigenkänning i historisk text. Det finns bra modeller och dataset för moderna texter, men de fungerar inte lika bra på historiska texter som kan vara i dåligt skick och innehålla varierad information, löptext och tabeller till exempel. En annan utmaning är att stavningen har förändrats mycket genom tiderna och att historiska texter innehåller andra typer av namn, till exempel ”Anders i Hult”. Historiska texter behöver därför ett egna träningsdataset, och SWENER-1800 är det första namnigenkänningsdatasetet som tagits fram för historisk svenska, säger Erik Lenas.
Hur har arbetet gått till?
– I samarbete med historiker har vi valt ut ett antal texter från sent 1700-tal till 1900. Texterna är tagna ur fem genrer: polisrapporter, skönlitteratur, suppliker, dvs skrivelser till kungen eller myndighet, domstolsprotokoll och tidningar. Därefter har annoterare manuellt märkt upp en halv miljon ord med så kallade entiteter som namn på personer, platser, organisationer och kroppsliga symptom. Vi har satt upp riktlinjer för vad annoterarna ska märka upp och hur de ska tänka. Ett ord som julafton till exempel kan vara en händelse eller ett tidsuttryck, beroende på sammanhanget. Genom att märka upp alla entiteter skapas ett slags facit som AI-system kan testas emot, säger Eva Pettersson.
Vad kan SWENER-1800 användas till?
– SWENER-1800 kan fungera som en korpus för träning och utvärdering och namnigenkänningsmodeller och därigenom bli en viktig resurs för forskare som vill söka i stora textmassor, till exempel kan man undersöka hur allvarlig psykisk sjukdom har beskrivits i svenska rättssystem genom att träna en modell som märker ut entiteten symptom i Svea hovrätts och Göta hovrätts arkiv, vilka omfattar miljontals sidor, och sen se hur psykisk sjukdom beskrivs genom dess symptom, eller för att undersöka hur stil, terminologi och grammatik förändrats över tid, säger Eva Pettersson.
– Man kan använda SWENER-1800 som ett valideringsdataset för att utvärdera hur bra språkmodeller är på historisk svenska. Uppmärkta entiteter är också en förutsättning för att via andra AI-modeller kunna länka personer, platser och organisationer och göra mer exakta sökningar i arkiv, till exempel hitta alla omnämnanden av Gustav Vasa, oavsett om han omnämns som ”Kung Gustav” eller bara ”Gustav”. SWENER-1800 ger också möjlighet till mer avancerade sökningar och analyser som relationsextraktion, det vill säga att identifiera och klassificera relationer mellan entiteter som nämns i texter. För att återkomma till entiteten symptom, så kan man exempelvis undersöka ett visst symptom, till exempel magont, och med hjälp av ytterligare en AI-modell extrahera relationerna mellan namn och symptom och sedan forska på genusdistributionen. Är det mest kvinnor som tillskrivits symptomet eller män? SWENER-1800 ger i förlängningen möjlighet att ställa helt nya forskningsfrågor, avslutar Erik Lenas.
SWENER-1800
SWENER-1800 har tagits fram av Språkbanken CLARIN tillsammans med Riksarkivets AI-labb och Datorlingvistikgruppen vid Institutionen för lingvistik och filologi, Uppsala Universitet.
SWENER-1800 är det första NER-datasetet (Named Entity Recognition) för historisk svenska och ett viktigt steg för att öppna upp språkteknologifältet för historisk text.
Publicerad den
Uppdaterad den

Eva Pettersson, biträdande föreståndare för Språkbanken CLARIN och Erik Lenas, Lead Data Scientist på Riksarkivets AI-labb.

Exempel på annotering i den namnuppmärkta korpusen. Grönmarkerade fraser är uppmärkta som personer (PER), blå är yrken (OCC), gula är datum (TME-DATE), orange är tidsangivelser (TME-TIME), beige är platser (LOC) och lila anger monetära enheter (MSR-MON).