Kõnetuvastus ehk automaatne transkriptsioon – kas täpsem kui inimkõrv?

Tehnoloogia võimaldab automatiseerida mitmesuguseid protsesse, mis muidu käsitsi tehes võtavad sadu tunde aega: näiteks transkribeerimist, subtiitrimist ja tekstianalüüsi. Lahendused on kindlasti pikemas perspektiivis kasulikud, kuid inimkeele keerukuse tõttu pole need kaugeltki mitte ideaalsed. Seekord vaatame lähemalt, kuidas töötab kõnetuvastus ja millal võib sellele rakendust leida.

kõnetuvastus

Kõnetuvastus – nii, nagu nimigi viitab – on automaatne transkribeerimise põhimõtteid järgiv tehnoloogia, mille abil konverteeritakse kõneldud tekst kirjalikuks tekstiks. Kasutusvaldkondi on kõnetuvastusel mitmesuguseid. Näiteks tõlkeprotsessis võib automaatne transkriptsioon tulla kasuks siis, kui soovitakse luua subtiitreid, ilma et tõlget vajava video sisu oleks teksti kujul veel olemas. Kõnetuvastus võimaldab audiopõhiselt (ja mõnikord reaalajas) luua alusteksti, mis hiljem tõlgitakse sihtkeelde. Lisaks kasutatakse automatiseeritud transkriptsiooni vaegkuuljatele mõeldud subtiitrite loomiseks; nii näiteks tutvustas ERR tänavu automaatsubtiitrite lahendust. Samuti on kõnetuvastus leidnud kasutust mitmesugustes keeletehnoloogiafirmades, kes näiteks analüüsivad erisuguse audiomaterjali meelestatust, temaatilist jaotust ja kvaliteeti.

 

Tehnoloogia versus inimene

Kõik loetletud lahendused tekitavad aga küsimuse, kas kõnetuvastus suudab asendada nn inimkäelist transkribeerimist. Esmalt tuleb selgitada, kuidas kõnetuvastus üldse töötab. Nimetatud tehnoloogiat arendatakse sageli masinõppemeetodil, st rakendusele söödetakse ette treeningandmed, mille põhjal kõnetuvastustäpsust pidevalt parandatakse. See muidugi tähendab, et mida rohkem on neid treeningandmeid, seda täpsemini rakendus töötab. Kõnetuvastuse arendamist võib võrrelda teise keele õppega: mida rohkem me õpitavat keelt kuuleme ja mida mitmekülgsem on õpitav sisend, seda tõenäolisemalt ja kiiremini keele selgeks saame. Seega kõnetuvastuse kvaliteet sõltub andmetest, mille peal seda on treenitud.

Teine oluline nüanss on muidugi inimkeele komplekssus. Kõige sujuvamalt töötab kõnetuvastus sellise suulise keele ainese põhjal, mis on ligilähedane normipõhisele kirjakeelele. Kuid see, kuidas me räägime, on palju nüansirikkam. Näiteks leidub suulises keeles rohkelt üneeme, poolikuid sõnu, muutuvat intonatsiooni, kokkuhääldusi, pause jpm, mida kõnetuvastus ei pruugi alati ära tunda. Lisaks kasutatakse suhtluses ka teisi keeli, mille tuvastamisega ükskeelsel ainestikul treenitud kõnetuvastus võib jällegi hätta jääda.

 

Kontrollime kõnetuvastuse täpsust

Katsetuse huvides teeme väikese võrdluse, kui hästi kõnetuvastus töötab. Selleks valisime välja kolm kõnetuvastuskeskkonda ning söötsime neile ette kaks audiofaili. Mõlemad helilõigud on umbes 30 sekundit pikad ning kvaliteedi hindamise mõttes transkribeerisime jutu enne käsitsi. Esimene audiofail pärineb 29.07.2022 „Aktuaalse kaamera“ uudistelõigust, milles räägiti, kuidas loomaaialoomad tulevad toime kuumade ilmadega. Teine audiofail pärineb YouTube’i kanali SINA OTSUSTAD 02.11.2020 postitatud videost pealkirjaga „TALLINNA PARIM BURGER!!!“, kus hinnati eri restoranide pakutavaid burgereid.

Kõnetuvastuseks kasutasime kolme rakendust: kõnetuvastus ehk kõne tekstiks, Microsoft Wordi transkriptsioon ja Happy Scribe. Iga rakenduse juures valisime eestikeelse kõnetuvastuse. Allpool analüüsime lähemalt, kui hästi iga lahendus kõnetuvastusega toime tuli.

 

Tekst nr 1: „Aktuaalse kaamera“ uudislõik

Transkriptsioon 1. Käsitsi tehtud transkriptsioon

 

Uudisteankur Nende sõnumite jätkuks sobib hästi ülevaade sellest, kuidas saavad kuumadel päevadel ja troopilistel öödel hakkama inimese kõrval loomaaia ja botaanikaaia asukad.
(00:04)
ReporterKuumast ilmast hoolimata elab Tallinna Loomaaed oma igapäevast elu. Tõsi, keskpäevase päikese eest otsitakse pigem varju või hoitakse vee ligi. Loomaaiaasukatest kõige põhjapoolsemat päritolu on jääkarud, kelle päriskodu Arktikas on pakaseline ja jäine.
(00:15)

 

automaatne transkriptsioon

Kuna tegemist on uudisega, on käsitsi transkribeerimine mitmel põhjusel lihtne. Mõlemad kõnelejad räägivad mõõdukas tempos, teevad asjakohaseid pause ja annavad intonatsiooniga märku, millal lõpeb ja millal algab lausung (s.o räägitud lause). Kõnelejate erinev hääletämber võimaldab selgelt eristada, kes parasjagu räägib. Kui eemaldada transkriptsioonist kõnelejad koos ajakoodidega, siis sarnaneb räägitu üsna palju tavalise kirjaliku tekstiga.

 

Transkriptsioon 2. Transkriptsioon veebilehelt tekstiks.ee (kõnetuvastus ehk kõne tekstiks)

 

Johannes TrallaNende sõnumit ei jätkuks, sobib hästi ülevaade sellest, kuidas saavad kuumadel päevadel ja troopilistel öödel hakkama inimese kõrval loomaaia ja botaanikaaiaasukad.
(00:04)
Reet WeidebaumKülmast ilmast hoolimata elab Tallinna loomaaed oma igapäevast elu. Tõsi, keskpäevase päikese eest otsitakse pigem varju või hoitakse vee ligi. Loomaaia asukatest kõige põhjapoolsemat päritolu on jääkarud, kelle päriskodu Arktikas on pakaseline jäine.
(00:15)

 

Kõnetuvastus on saanud uudislõigu transkribeerimisega peaaegu suurepäraselt hakkama. Peale selle, et suurem osa sõnu on tuvastatud, sisaldab transkriptsioon ka kirjavahemärke ja automaatselt tuvastatud ajakoode. Lisaks on näha, et tarkvara on treenitud „Aktuaalse kaamera“ ainestiku põhjal: kõnetuvastus on edukalt eristanud mõlemad kõnelejad ja samuti tuvastanud nende isiku. Selline transkriptsioon vajab vaid üksikuid sõnalisi parandusi.

 

Transkriptsioon 3. Happy Scribe’i transkriptsioon

Jätkuks sobib hästi ülevaade sellest kuidas saavad kuumadel päevadel on troopiliste mööda hakkama inimese kõrval loomaaia ja botaanikaaia asukad ilmast hoolimata elab tallinna loomaaed oma igapäevast elu tõsi keskpäevase päikese eest otsitakse pigem marju või hoitakse veidi loomaaia asukatest kõige põhjapoolsemad päritolu on jääkarud kelle päriskodu arktikas on pakaseline ja jäine.

Üllataval kombel on Hispaania ettevõtte lahendus suutnud tuvastada üsna hästi eestikeelse audiofaili sisu. See lahendus transkribeerib reaalajas ja märgib punaseks need kohad, mille tuvastamises rakendus pole täiesti kindel. Siiski leidub transkriptsioonis mitmeid puudujääke, mida tuleks käsitsi parandada: kõnelejaid pole eristatud, puuduvad ajakoodid, samuti ka kirjavahemärgid ning suured algustähed.

 

Transkriptsioon 4. Microsoft Wordi transkriptsioon

Nende sõnumit ei jätkuks sobib hästi ülevaade sellest kuidas saavad kuumadel päevadel ja troopilistele endal hakkama inimese kõrval loomaaia ja botaanikaaia asukad viimast ilmast hoolimata elab Tallinna loomaaed oma igapäevast elu tõsi keskpäevase päikese eest otsitakse pigem varju või hoitakse veelgi loomaaia asukatest kõige põhjapoolsemate aita loom on jääkaru kelle päriskodu arktikas on pakaseline ja jäine

Microsoft Wordi kõnetuvastuse lahendus kirjutab transkriptsiooni toortekstina otse Wordi dokumenti. Transkribeerimine toimub reaalajas, mistõttu tuvastatavate sõnade arv sõltub audiofaili kõnetempost. Üldjoontes suutis rakendus tuvastada mitmesuguseid keerulisemaid sõnu, kuid arvestades, et MS Word sisaldab eestikeelset õigekirjakorrektorit, siis võiks oodata, et ka kõnetuvastus tuleb uudislõigu transkribeerimisega paremini toime. Taas tuleks käsitsi eristada kõnelejad, lisada kirjavahemärgid ja ka õiged või puuduvad sõnavormid.

 

Tekst nr 2: kanali SINA OTSUSTAD YouTube’i videolõik

Transkriptsioon 1. Käsitsi tehtud transkriptsioon

 

SanderViis seitsekümmend viis, Whopper Cheese’i.
(00:02)
Ranno Ta võiks olla paberiga kaasas ka.
(00:05)
Sander Jah, aga välimus enam-vähem, ma ei tea, mis sa oskad öelda.
(00:07)
Ranno Noojah.
(00:13)
SanderTa ei ole nagu midagi erilist. Aga ta näeb hea välja nagu.
(00:15)
Ranno Hästi lai ka muidugi.
(00:18)
Sander Jah, hästi lai.
(00:20)
Ranno Tundub, nagu tahaks välja lennata.
(00:21)
Sander Jah.
(00:22)
Ranno Natuke selline tunne on.
(00:22)
Sander Aga välimusele panekski mingi kuus-seitse niimoodi, noh, sinna kanti. Aga ta midagi nagu väga ilusat välja ei näe, aga noh, söödav, maitsev.
(00:25)
Ranno Jah. Njämma-njämma.
(00:31)
Sander Njämma-njämma.
(00:33)

 

subtiitrimine

Kui uudislõik on ootuspäraselt kirjakeelne, mis lihtsustab oluliselt transkribeerimist, siis nn argikõne üleskirjutamine on märksa suurem proovikivi. Siinne videolõik sisaldab spontaanset juttu, kõnelejad räägivad märksa kiiremini ja ebaselgema diktsiooniga. Lisaks kasutatakse muid kõnekeelele iseloomulikke tunnuseid, näiteks täitesõnu, kordusi ja palju vabamat sõnajärge. Sellise jutu üleskirjutamine võtab oluliselt rohkem aega, eriti kui on vaja eristada kõnelejaid ja kirjutada välja kõik sõnad ning helikvaliteet pole sama hea kui mõnes stuudios.

 

Transkriptsioon 2. Transkriptsioon veebilehelt tekstiks.ee (kõnetuvastus ehk kõne tekstiks)

Teeb selle paberiga. Aga välimus enam-vähem, ma ei tea, mis, oskad öelda nagu selline kiirtoiduburgeri väljendasin. Ja, ja teil on midagi erilist. Ta näeb hea välja nagu hästi lai ka, muidugi. Hästi lai, tundub nagu tahaks välja lennata, jääb natuke selline tunne, on. Ta välimuse polekski mingi kuus seitse niimoodi sinna rantega ta midagi nagu väga ilus välja ei näe, söödab maid, supp on jama.

Erinevalt uudislõigust ei suutnud kõnetuvastus ära tunda, et videos kõneleb vaheldumisi kaks inimest. Siiski oli näha, et rakendus püüdis tunda ära võimalikult palju sõnu, sest helifaili töötlemine võttis mõnevõrra aega. Lisaks leidub transkriptsioonis kirjavahemärke, mis tekkisid sageli kohtadesse, kus kõneleja tegi lühikese pausi. Kuna kõnelejad kasutasid ka kõnekeelseid väljendeid, siis nende tuvastamisega ei saanud lahendus hakkama, pakkudes häälduse järgi ligilähedasi vasteid. Seda transkriptsiooni annab siiski käsitsi täpsustada.

 

Transkriptsioon 3. Happy Scribe’i transkriptsioon

Toorjuustu vaime tervise seisukohalt siis yle.saa paberiga seoseid oli aga välimus enam-vähem välja visata tõenäoline kiirtoidud purjus peaga kirjeldab rahvuslike kommunistlike ilus oleks igati 067 live tuleb selle väitega tõeline sõber eilsed tallinna õhusõiduki110 jaama 11.

See transkriptsioon vajab täielikku ümbertegemist. Kuigi mitmes kohas on märgitud sõnad punaseks, andes märku nende tuvastamise raskusest, pole ka teiste sõnade äratundmine olnud kõige täpsem. Käsitsi parandamine oleks omal kohal siis, kui suurem osa sõnu on automaatselt välja kirjutatud, kuid sellist tüüpi audiofaili Happy Scribe’i lahendusega siiski transkribeerida ei saaks. Peale sõnade ei eristanud rakendus ka kõnelejaid, pause ega ajakoode.

 

Transkriptsioon 4. Microsoft Wordi transkriptsioon

Tere juustu KNK kõik selle paberiga aga välimus on enam vähem ma ei tea mis ma oskan öelda aga selline kiirtoidu purgaa me küsime k tähega välja nagu hästi lahja muidu ng kui NK me räägime siin pole kedagi 6 7 niimoodi läks sinna nendega midagi nagu väga ilus välja k ES jah jah

Nagu Happy Scribe’i rakendus on Microsoft Wordi kõnetuvastus jäänud hätta sõnade äratundmisega, kuigi kohati on kvaliteet veidi parem, kuna mõnes kohas võib leida ka seotud lausungi. Ilmselt mõjutas rakenduse täpsust suuresti kõnelejate rääkimistempo – transkribeerimine toimus reaalajas ja kõnetuvastus ei jõudnud kuuldud heli piisavalt kiiresti töödelda. Sellise transkriptsiooni parandamine on ajakulukas ja lihtsam oleks algusest lõpuni käsitsi transkribeerida.

 

Millal siis kõnetuvastust kasutada?

Universaalse kõnetuvastuse arendamine näib praegu pea võimatu, kuna puudu on andmetest, mida saaks kasutada kõnetuvastuse täiustamiseks. Andmete puudus on aga omakorda seotud mitmesuguste eetiliste ja juriidiliste küsimustega. Sellegipoolest pole kõnetuvastus täielikult kasutu, sest võime seda usaldada järgmistes tingimustes.

  • Transkribeeritav kõne on kirjakeelega võimalikult sarnane ning ükskeelne.
  • Kõnetempo on mõõdukas ja kõnelejate diktsioon selge.
  • Helifail on kvaliteetne ja ei esine taustmüra.

Üksikutel juhtudel töötab kõnetuvastus ka mõne spetsiifilise keeleandmestiku peal, kuid sellised lahendused on sageli kallid. Eeliseks on samuti see, kui kõnetuvastuslahendust on arendatud vastava keele eripärasid arvestades. Nii võime järeldada, et kõigist kolmest katsetatud kõnetuvastusest töötas kõige paremini kohalik vabavaraline kõne tekstiks muutmise tarkvara, mis küll vajab käsitsi parandamist, kuid tuleb üsna hästi toime sõnade äratundmisega. Mitmed välismaal arendatud rakendused on aga tasulised: näiteks Happy Scribe võimaldab tasuta proovida vaid üheminutilise audiofaili transkribeerimist, pärast seda tuleb kasutajal maksta. Üks minut on paraku liiga lühike aeg, et hinnata, kui hästi lahendus kõnetuvastusega toime tuleb.

Kui aga on vaja transkribeerida helifaili, mis juba kuulates mõjub keerulisena, on kõige kindlam toetuda käsitsi transkribeerimisele. Selline lahendus võib näida küll ajakulukana, kuid on samas ka kõige täpsem, eriti kui teksti kirjutab üles treenitud kõrvaga transkribeerija. Nagu masintõlke puhul ei pruugi automaatse transkriptsiooni käsitsi parandamine olla sugugi lihtne, vaid tekitab hoopis lisatööd ja koos sellega lisakulu.

SAADA MEILE PÄRING!

Lisa ka oma e-posti aadress ja failid ning saada päring. Ootame.