Mediesök gör KB:s radiosamlingar sökbara
Tidigare var det svårt för forskare att använda Kungliga bibliotekets digitaliserade radiosamlingar utan att lyssna igenom filer i realtid. Det nya sökverktyget Mediesök gör det möjligt att söka i miljontals timmar radio genom fritextsökningar. Mediesök har utvecklats av KB-labb med hjälp av KB-Whisper. Chris Haffenden, biträdande chef för FoU och KB-labb, berättar.
Vad är Mediesök?
– KB har enorma samlingar av audiovisuellt material – över tio miljoner timmar film, tv och radio. Det är en fantastisk resurs, men också svår att arbeta med eftersom man i princip behövt lyssna igenom materialet i realtid. Med Mediesök förändras det. Vi har använt AI för att transkribera det som sägs i radiosändningarna, vilket gör innehållet sökbart som text. Du kan skriva in ett ord eller en fras och hoppa direkt till rätt ställe i en inspelning. Det öppnar upp materialet på ett helt nytt sätt. Man kan till exempel studera hur vissa ord används över tid, analysera samhällsdebatt eller undersöka dialekter och språkförändringar.
Hur fungerar tekniken bakom?
– Det är en komplex process. Först delas ljudet upp så att vi kan skilja tal från musik, tystnad och andra ljud. Sedan transkriberas de delar som innehåller tal med hjälp av en taligenkännings-modell. Slutligen kopplas texten tillbaka till exakt rätt punkt i inspelningen. Det gör att du inte bara kan läsa vad som sägs, utan också navigera direkt i ljudet. En förutsättning är att tal-till-text modellen är anpassad för svenska och kan hantera dialektala variationer. Vi har använt KB-Whisper som är tränad på dialektmaterial från Institutet för språk och folkminnen (Isof) som tillgängliggjorts av Språkbanken Sam.
Hur tillförlitliga är transkriptionerna?
– De är automatiskt genererade och alltså inte perfekta. Precis som med handskriftsigenkänning kan det bli fel, särskilt om ljudet är dåligt eller om flera personer pratar samtidigt. Ibland kan systemet också skapa ord som egentligen inte finns. Men poängen är inte att ersätta originalmaterialet, utan att göra det sökbart.
Vem kan använda Mediesök?
– I nuläget är tjänsten av juridiska skäl tillgänglig för forskare som arbetar på plats i KB:s forskarrum och har ett SMDB-konto.
Vad händer framöver?
– Just nu innehåller Mediesök över 11,6 miljarder ord från P1 och flera lokala radiokanaler. Målet är att inkludera allt digitaliserat radiomaterial så småningom. Vi ser det här som en del av en större förändring. På samma sätt som handskriftsigenkänning har gjort arkiv med handskrivna dokument sökbara, förändrar taltranskribering hur vi kan arbeta med ljudarkiv.
Publicerad den
Uppdaterad den
