Höstworkshop i repris: Det svenska riksdagstrycket
Hur kan språkteknologi underlätta studier av den politiska debatten i Sverige? På årets Höstworkshop presenterade Måns Magnusson, docent i statistik vid Uppsala universitet, arbetet med att ta fram en forskningskorpus av det svenska riksdagstrycket 1867–2023.
Varför är det svenska riksdagstrycket så intressant?
– Riksdagstrycket har varit kärnan i den politiska diskussionen i Sverige under lång tid, och särskilt efter demokratins genombrott. Det är där motioner skickas in och där nationella politiska debatter äger rum. Riksdagstrycket skildrar den svenska lagstiftningsprocessen och är därför viktigt för alla som vill studera den politiska diskussionen i Sverige.
Berätta om arbetet med korpusen!
– Riksdagsbiblioteket och Kungliga biblioteket hade redan digitaliserat riksdagshandlingarna; riksdagsdebatter, regeringspropositioner, privata ledamöters motioner och utskottsbetänkanden från 1523, men filerna var inte strukturerade för forskningsändamål. Därför startade jag och Fredrik Norén vid Malmö universitet projektet SWERIK för att i samarbete med Riksdagsbiblioteket bygga en forskningskorpus. Målet är att skapa digitala versioner som är så nära originalen som möjligt, kompletterade med metadata. Förutom att genomföra en ny OCR-skanning strukturerar vi materialet, lägger till ny information och fyller igen hål och luckor.
Sedan vi startade för 1,5 år sedan har vi fokuserat på riksdagsprotokollen med information om debatter och vilka beslut som fattats. Under senare tid har vi fått ordning på motioner tillbaka till 1867. Riksdagsprotokollen rör sig om 18 000 protokoll, 1 068 000 sidor och en halv miljard anförandeord. Vi har nu en första version klar som inte är perfekt, men är ett första steg. Nästa steg är att ta itu med utskottsbetänkanden och propositioner.
När är arbetet klart?
– Projektet pågår fram till 2027, men arbetet blir aldrig klart. Vi lägger till nya versioner och rättar fel löpande. Dessutom uppstår ständigt nya problem vi behöver hantera. Till exempel att partier förändrar namn över tid. Det finns också ljudinspelningar som vi försöker föra ihop med riksdagsprotokollen. Parallellt som vi förbättrar materialet, bygger vi en forskningsinfrastruktur med olika typer av samarbeten. Just nu arbetar vi med cirka tio aktiva forskningsprojekt. Men eftersom allt material ligger öppet finns säkert fler projekt vi inte känner till.
Swedish Riksdag 1867–2022: An Ecosystem of Linked Open Data (SWERIK)
SWERIK-korpusen har en fri CC BY-licens, och Riksdagsbiblioteket kommer att ansvara för lagring och underhåll av korpusen efter projektets slut. Riksdagsprotokollen och debatterna ska även läggas in i Språkbanken Texts korpus Korp. SWERIK pågår 2022-2027 och finansieras av Riksbankens Jubileumsfond.
Publicerad den
Uppdaterad den