Månadens profil: Harald Berthelsen

Hur tillgängliggör man inspelningar som bitvis är av dålig kvalitet och innehåller ord som inte längre används? Harald Berthelsen jobbar just nu med att tillgängliggöra Isofs inspelningar av dialekter – ett arbete som just nu är på experimentstadiet och i förlängningen kan ge nya möjligheter att skapa talteknologi för minoritetsspråk.

Vad gör du på jobbet?

– Jag har precis klivit in i ett projekt som Språkbanken Sam startade i början av året där vi tillgängliggör dialektinspelningar som finns i Isofs arkiv. Materialet är intressant för forskare, till exempel för att se hur dialekter har förändrats över tid, men även för andra som är nyfikna på dialekter.

En del av materialet är redan tillgängligt på det digitala verktyget Dialektkartan, men det finns otroligt mycket mer. Hur ska man kunna navigera i detta? Tanken är att koppla ljudet till en transkription så att man i text kan söka efter ett ord eller en fras och få träffar i form av ljudfiler som man kan lyssna på.

Vilka är utmaningarna?

– Just nu är jag på experimentstadiet och testar olika metoder. Hur kan man åstadkomma bästa möjliga resultat när det gäller dialektinspelningar? Det är inte självklart. Inspelningarna kan vara av dålig kvalitet, och det kan också vara svårt att förstå vad som sägs. De som intervjuas använder ofta ord som inte längre finns. Taligenkänningsverktygen är inte heller tränade på den här typen av material, så vi får arbeta i etapper och på så sätt träna verktygen.

Vilka resultat hoppas du på?

– Tanken är att utvidga Dialektkartan så att man förutom att klicka sig runt och lyssna även kan söka på ord och fraser. Även den digitala arkivtjänsten Folke och korpusverktyget Korp skulle kunna kompletteras med den här funktionen.

I och med att vi gör materialet tillgängligt får vi också bättre data för att träna taligenkänning och göra talsyntes. Jag hoppas kunna använda resultatet av det här projektet för att skapa träningsmaterial även för minoritetsspråk. För de stora språken finns ett kommersiellt intresse för att skapa språkteknologi, men inte för små språk. Den vill jag vara med och utveckla. För jiddisch till exempel finns talsyntes och taligenkänning utvecklad utomlands. Kan vi använda oss av den? Kan man använda sig av den talteknologi som finns för finska för meänkieli? Och hur jobbar vi med romska där det finns väldigt lite språkdata?

Vad driver dig?

– Jag gillar open source-projekt där man gör saker tillsammans för att det ska bli bra. Att jobba med minoritetsspråk är därför väldigt intressant och det finns ett stort engagemang hos de som talar språken och arbetar med dem. Vidare är talteknologi ett fält som utvecklas väldigt snabbt. Varje dag upptäcker jag något jag aldrig sett förut, något jag letat efter som löser problem på nya och oväntade sätt. Det är väldigt spännande.

Isofs dialektsamlingar

Språkbanken Sam tillgängliggör Isofs omfattande dialektsamlingar. I arkiven finns resultatet av över 100 års arbete med att dokumentera dialekter och talspråk. Sammanlagt rör det sig om cirka 25 000 timmar inspelat tal. Läs mer om dialektsamlingarna. Länk till annan webbplats.

Harald Berthelsen.

Harald Berthelsen, språkteknolog på Språkbanken Sam. Foto: Johan Frantz Rönnblom.

Publicerad den

Uppdaterad den

Språkteknologi