Månadens profil: Olof Karsvall

Riksarkivet har miljontals bilder som tidigare inte var sökbara. Nu är det möjligt tack vare en ny HTR-modell, Swedish Lion. Olof Karsvall, forskningsledare på Riksarkivet, är en av skaparna av den nya AI-modellen.

Vad gör du på jobbet?

–Jag leder forskningsprojekt på Riksarkivets avdelning för forskning och kunskapsuppbyggnad och koordinerar vårt deltagande i Språkbanken och andra infrastrukturer. Vi har ett ben i traditionella arkiv och ett annat i vårt AI-labb där vi använder AI för att transkribera och tillgängliggöra arkivmaterial som kan användas för forskningssyften.

Riksarkivet arbetar med arkiv- och kulturarvsfrågor men den information vi har kan också bli väldigt bra AI-modeller. Ett exempel på det är Swedish Lion, en ny HTR-modell som kan tolka handskriven text från 1600-tal till 1900 med en noggrannhetsgrad upp mot hela 95 %. HTR-modellen och dess träningsdata är öppen källkod och kan användas antingen som de är eller som grund för träna egna modeller. Vi har också byggt en applikation, HTRflow, så att det ska vara ännu enklare att pröva modellen.

Swedish Lion är ett värdefullt verktyg för tolkning av handskrivna manuskript och arkivmaterial. Nu har den första miljonen maskinlästa bilder publicerats och blivit sökbara i Nationell Arkivdatabas med hjälp av modellen. Vi har även förberett många fler miljoner bilder som vi kommer att rulla ut. Möjligheterna som Swedish Lion ger kan inte överskattas, men utmaningar finns. Modellen har inga problem att tolka löptext som till exempel protokoll, men handritade skisser med tabeller och figurer är knepigare. Så vi har många problem kvar att lösa.

Vilka fördelar finns med att vara en del av Språkbanken?

– Riksarkivet är en myndighet med flera uppdrag. Forskning är ett av dem och att delta i en infrastruktur ger oss ett tydligt syfte. Swedish Lion har vi kunnat bygga tack vare att bland annat Språkbanken ger oss resurser och inte minst kontakt med forskarsamhället.

Vad händer framöver?

– Det som blir spännande på sikt är att börja analysera vad materialen säger. Ett exempel är Svea hovrätts protokoll som vi har tillgängliggjort. Vilka rättsfall var vanliga under 1700-talet? Vilka överklaganden finns? Vad tvistar man om? Materialet ger många ingångar för datadriven forskning som jag hoppas att forskare ska anamma.

Vad driver dig?

– Det är fascinerade att jobba så nära spännande arkivmaterial som aldrig tar slut. Hela tiden hittar man nytt material man inte visste fanns. Jag trivs att jobba med metoder och är en slags samlartyp som gillar att ordna saker och ting. Det är också intressant att delta i det skifte vad gäller tillgängliggörande som sker just nu. I samhället finns en rörelse mot att utveckla AI-modeller på ett mer ansvarsfullt sätt. Där har Riksarkivet en fördel med stora mängder data från långa tidsserier, som är säkra och fullt transparenta. Vi kan exakt visa vilka arkivdokument som ligger till grund för våra modeller och datamängder. Det är en styrka som bara blir viktigare framöver. Vi ser med spänning på vart den här utvecklingen kan ta oss!

Swedish Lion

Modellen är tränad på ett brett spektrum av historiska dokument, särskilt domböcker och protokoll från 1600-, 1700- och 1800-talen. Nuvarande version innehåller 3,3 miljoner textrader och 15,6 miljoner ord.

Swedish Lion är ett samarbete mellan institutioner som Riksarkiven i Sverige och Finland, Stockholms stadsarkiv, Jämtlands läns fornskriftsällskap samt forskare från Stockholms och Uppsala universitet.

Läs mer om Swedish Lion Länk till annan webbplats..

Utforska Swedish Lion Länk till annan webbplats..

Träningsdata för Swedish Lion Länk till annan webbplats..

Utforska HTRflow Länk till annan webbplats..

Testa HTRflow Länk till annan webbplats..

Källkod HTRflow Länk till annan webbplats..

Riksarkivets träningsdata för HTR-modeller Länk till annan webbplats..

Publicerad den

Uppdaterad den

Språkbanken CLARIN
Språkteknologi
Olof Karsvall

Olof Karsvall, forskningsledare på Riksarkivet. Foto: Emre Olgun.