Språkbanken Text och KB-labb lanserar ny datasamling: Kubord

Språkbanken Text och KB-labb samarbetar för att skapa nya forskningsdata för humanistisk och samhällsvetenskaplig forskning. Som ett första resultat lanseras nu datasamlingen Kubord, som består av strax under en miljard ord från det senaste decenniet av moderna dagstidningar.

Orden har tagits fram hos KB-labb genom att mata in tidningstexter i Språkbanken Texts språkteknologiska analyskedja Sparv Länk till annan webbplats, öppnas i nytt fönster.. På så sätt har texterna delats upp i ord, så kallad tokenisering, och utökats med lingvistiska särdrag såsom ordklasser, betydelser och sammansättningsinformation.

Kubord innehåller upphovsrättsskyddat material och därför är orden inte försedda med kontextuell information, till skillnad från många andra datasamlingar inom Språkbanken. Trots detta är den här samlingen av stort värde för forskare som vill studera ordens förändring över modern tid. Kubord används bland annat i ordboksarbetet som pågår på Institutionen för svenska, flerspråkighet och språkteknologi. För ordboksredaktionen är det viktigt att kunna ta reda på hur vanliga orden är i modernt språk för att lättare kunna identifiera nyord och ord som inte används längre.

Kubord innehåller idag ord från Dagens Nyheter, Göteborgs-Posten och Svenska Dagbladet från åren 2010-2020, och utökas löpande med nya tidningar och årgångar.

Kubord finns fritt tillgänglig för nedladdning på Språkbanken Texts hemsida och kan även utforskas i forskningsverktyget Korp Länk till annan webbplats, öppnas i nytt fönster..

Ladda ner kubord här

Publicerad den 28 februari 2022

Uppdaterad den 07 mars 2022

Språkbanken Text