Upptäck textanalysverktyget Sparv – nu i ny version
Nu finns en ny version av textanalysverktyget Sparv. Sparv märker upp texter med lingvistisk information och är ett av många språkteknologiska verktyg som utvecklats inom Nationella språkbanken.
– Sparv berikar texter, det vill säga analyserar och lägger till ny information. Det handlar till exempel om ordklasstaggning, ordbetydelse eller namntaggning, alltså uppmärkning av namn på till exempel personer eller organisationer. Sparv kan också analysera en texts läsbarhetsvärde, säger Anne Schumacher, forskningsingenjör på Språkbanken Text vid Göteborgs universitet, som varit med och utvecklat den nya versionen av verktyget kallad Sparv 4.
Tillsammans med kollegan Martin Hammarstedt har hon skrivit om och moderniserat koden, vilket bland annat gjort verktyget mer användarvänligt.
– Nu är det till exempel lättare att installera Sparv och det går att exportera informationen i flera format som XML och CSV. Sparv har även fått nya språkmodeller som bland annat leder till bättre ordklasstaggning, berättar Martin Hammarstedt.
Erbjuder verktygslåda för språkteknologi och forskning
Nationella språkbanken skapar möjligheter att forska i digitala text- och talmaterial genom många olika verktyg och metoder från språkteknologi och digital humaniora. Och verktygslådan utvecklas ständigt. Sparv, som främst används av språkteknologer, är ett av många exempel. Det finns också omfattande språkliga resurser som lexikon och korpusar, det vill säga stora textsamlingar som är sökbara. Ett exempel på ett populärt forskningsverktyg är Korp, en sökmotor som ger tillgång till cirka 15 miljarder ord som finns i Språkbanken Texts korpusar. Alla verktyg och resurser är fritt tillgängliga och kan användas för forskning inom olika ämnesområden som språkvetenskap, språkteknologi, artificiell intelligens, samhällsvetenskap och många andra.
Bidrar till att göra Kungliga bibliotekets samlingar tillgängliga
Ett aktuellt exempel på hur just textanalysverktyget Sparv kan användas är ett samarbete med Kungliga bibliotekets nystartade datalabb, KB-labb, där Sparv analyserar texter från Kungliga bibliotekets samlingar, vilket skapar möjligheter att tillgängliggöra dem på ett nytt sätt.
– KB har texter som vi är intresserade av men som de inte kan ge till oss eller till någon annan av upphovsrättsliga skäl. Nu när vi har installerat Sparv på deras servrar kan KB-labb analysera texterna och sen extrahera alla ord, tillsammans med alla Sparvs annotationer, och ge listor till oss, säger Anne Schumacher och fortsätter:
- På så sätt får vi ut berikade ordlistor från samlingarna utan att göra intrång i upphovsrätten.
Språkbanken Text kan i sin tur analysera och även fritt dela med sig av listorna, så att vem som helst kan använda dem.
– Då kan vi också bygga språkmodeller för att förbättra andra språkteknologiska verktyg som i sin tur kan användas för forskning, säger hon.
Publicerad den
Uppdaterad den