Mis on AI-tõlge?
AI-tõlge (tehisintellekti tehtud tõlge) hõlmab teksti tõlkimist ühest keelest teise tehisintellekti algoritmide abil. AI-tõlge on koondnimetus nii neuromasintõlke mootorite, statistilise masintõlke ja tehisintellekti hübriidsüsteemide kui ka teiste AI-põhiste meetodite kohta.
Mis on statistiline masintõlge?
Statistilise masintõlke põhimõtteid kirjeldas Warren Weaver juba 1949. aastal oma märgukirjas „Translation“ („Tõlkimine“). Ta oli üks esimesi, kes kirjeldas arvuti kasutamise võimalusi inimkeele tõlkimiseks. Ellu viidi tema ideed alles 1980. aastate lõpus, sest varem puudusid selleks vajalikud kakskeelsed tekstikorpused ja tehniline võimekus. Statistiline masintõlge põhineb kakskeelsete paralleelkorpuste (erinevates keeltes kirjutatud samasisuliste tekstide kogude) statistilisel analüüsil. See tähendab, et masin loob tõlke selle alusel, milliseid sihtkeele sõnu või fraase on korpuses lähtekeele sõnade või fraaside vastena enim kasutatud.
Nii Google kui ka Euroopa Komisjon (paljude teiste seas) kasutasid alguses SYSTRAN-i reeglipõhist tõlkesüsteemi, ent esimene läks 2007. aastal ja teine 2010. aastal üle statistilistele süsteemidele. Ülemineku peamised põhjused olid järgmised:
- statistilised süsteemid on odavamad – suurema töö teeb ära masin, mitte reeglite programmeerija;
- nende süsteemide loomiseks ei ole tõlgitavaid keeli vaja süvitsi tunda;
- tõlked on loomulikumad, sest võtavad aluseks inimeste koostatud tekstid;
- neid saab kasutada paljude keelte puhul ilma erilise kohandamiseta;
- korpuste täienemisel suudavad süsteemid end ise paremaks muuta.
Ent statistilisel masintõlkel on ka mitmeid puudusi:
- vajadus suurte korpuste järele;
- valdkondlik piiratus, s.t kui korpus sisaldab tekste paljudest erisuguse keelekasutusega valdkondadest, muutuvad tulemused ebaühtlaseks;
- esineb raskusi väga erineva ehitusega keelte vahel tõlkimisel ja morfoloogiliselt keeruliste keeltega töötamisel.
Näiteks ajakirjas Õiguskeel ilmunud artiklis on tõlkija Ingrid Sibul märkinud, et statistilise masintõlke hindamise tulemused Euroopa Komisjonis näitasid, et seal kasutatud süsteem andis inglise keelest tõlkimisel kõige paremaid tulemusi portugali ja hispaania keele puhul ning kõige viletsamaid eesti, soome ja ungari keele korral.
Mis on neuromasintõlge?
Neuromasintõlge on kõige uuem ja arenenum masintõlke meetod, mis põhineb tehisnärvivõrkudel. Erinevalt tavapärastest statistilistest ja reeglipõhistest meetoditest kasutavad neurotõlkemootorid selliseid õppimise algoritme, mis jäljendavad inimaju tööviisi. Tehisnärvivõrke n-ö treenitakse tõlkima, mille käigus pannakse need etteantud tekstidest mustreid otsima, et avastatud mustrite alusel siis juba ise tõlkeid luua. Erinevalt statistilistest tõlkesüsteemidest vaatavad neurotõlkemootorid üksikute fraaside asemel korraga tervet algteksti lauset ja selle konteksti, mille tulemusena genereeritakse grammatiliselt korrektsemad ja soravamad tõlkelaused. Tänu pidevale täiendamisele ja treenimisele võimaldab neuromasintõlge jõuda nüüd juba selliste tõlketulemusteni, mis on sarnased inimtõlkija loodud tekstidega.
Neurotõlkesüsteemid jõudsid kõigest paari aastaga samale tasemele, mille statistilised tõlkemootorid saavutasid paarikümne aastaga. Ent kuigi erinevad võrdlused ja hinnangud on paljude valdkondade ja keelepaaride puhul näidanud uusimate neurotõlkemootorite üleolekut statistilistest mootoritest, on sellelgi süsteemil oma puudused:
- neurotõlge vajab samuti palju algandmeid – mitme uurimuse järgi rohkemgi kui statistilised süsteemid –, sest ilma nendeta ei leia masin õigeid mustreid lihtsalt üles;
- neurosüsteemid kipuvad ohverdama keelelist täpsust soravusele, mistõttu tekib sisulisi ja terminoloogilisi vigu rohkem kui statistiliste tõlkemootorite kasutamisel;
- kuna neurotõlkesüsteemid on kinnised, n-ö mustad kastid, mis panevad oma „maailmapildi“ kokku ise, suuresti nähtamatult, on ka nende tööd korrigeerida raskem, sest vigade allikat üles leida on peaaegu võimatu.
Statistilise masintõlke ja AI-tõlke ühismudelid
Kuna statistilisel masintõlkel ja neuromasintõlkel on nii tugevaid kui ka nõrku külgi, kombineeritakse neid, näiteks eel- või järeltöödeldes neurotõlget statistilise tõlkemootoriga ja vastupidi. Selliseid masintõlkelahendusi nimetatakse AI-tõlke hübriidsüsteemideks.
Statistilise masintõlke ja neuromasintõlke mudelite hübriidsüsteemiks kombineerimisel on võimalik mõlema meetodi puudujääke tasakaalustada.
Statistilise masintõlke tugev külg: statistiline masintõlge on hea lahendus haruldaste sõnade ja spetsiifiliste fraaside tõlkimisel, kuna see leiab tõenäolisi vasteid suurest tekstipaaride korpusest.
Neuromasintõlke tugev külg: neuromasintõlge tuvastab tehisintellekti toel konteksti ning koostab loomulikuma ja ladusama teksti.
Hübriidsüsteemis saab kasutada statistilist masintõlget terminoloogilise korrektsuse ning sõnade ja väljendite järjepidevuse tagamiseks, samas neuromasintõlge keskendub teksti üldisele ladususele ja tõlke täpsusele konkreetses kontekstis. Kombineerituna annavad need asjakohasema ja täpsema tõlke.
Statistilise masintõlke ja AI-tõlke kombineerimise eelised
Tehnika-, õigus- ja meditsiinitekstide tõlkimisel annab kõige parema tulemuse statistilise masintõlke ja AI-tõlke kombineerimine.
- Kohandamine tõlkevaldkonnale
Statistilisi masintõlkemudeleid on üldjuhul lihtsam konkreetse valdkonna tarbeks kohandada, näiteks saab luua juriidilise, meditsiinilise või tehnilise korpuse. Statistilise masintõlke valdkondlikke korpusi saab kasutada tõlke ettevalmistamiseks, tuvastades ja tõlkides terminibaasi toel spetsiifilised terminid, enne kui tekst neuromasintõlkesse suunatakse. Neuromasintõlge tõlgib seejärel ülejäänud teksti, arvestades konteksti ja ladusust. Selline kaheetapiline protsess parandab tõlke täpsust ja tagab valdkonnaspetsiifilise terminoloogilise järjepidevuse ning ühtlasi annab tõlkele loomulikuma kõla.
- Andmekorpuse suurendamine
Statistilise masintõlke abil saab luua suure hulga sünteetilisi paralleelandmeid, tõlkides selle abil tekste ühest keelest teise ja kasutades tulemust neuromasintõlke mudelite treenimiseks või seadistamiseks. See on eriti kasulik selliste keelte puhul, millel on väike korpus, ka eesti keele puhul. Statistilise masintõlkega loodud sünteetilised andmed võimaldavad luua palju suurema treeningkorpuse, mis parandab AI-tõlke osavust ja kohanemisvõimet eri keelte ja kontekstide puhul.
Väheste treeningandmetega keelte, näiteks eesti keele puhul võib statistilise masintõlke abil koostada esialgse tõlketeksti, mida AI-tõlke abil saab seejärel täiustada. Sellisel juhul genereerib statistiline masintõlge esmase teksti ning AI-põhine neuromasintõlkemudel viimistleb seda, muutes tõlketeksti loomulikumaks ja konteksti arvestavamaks.
- Topeltkontroll ja tõlkevigade parandamine
Statistilist masintõlget saab kasutada neuromasintõlke kontrollimiseks ja vigade parandamiseks. Kui AI-põhine mudel genereerib tõlke, mille korrektsuses ei saa päris kindel olla, võib statistiline mudel tõlke kinnitada või valesti tõlgitud terminitele alternatiive pakkuda, toimides topeltkontrollina. AI-tõlge saab seejärel statistilise masintõlke antud tagasisidest õppida ja aja jooksul täpsemaks muutuda.
Kas AI-tõlget saab usaldada?
AI-tõlget kasutatakse selliste tõlkeprojektide puhul, mille tähtaeg või eelarve ei võimalda klassikalist tõlketeenust kasutada. Puudulikult ettevalmistatud või toimetamata AI-tõlge ei suuda sageli tõlketeenusele seatud kõrgetele ootustele vastata. Kui aga masintõlke valmistab ette tõlkebüroo, kellel on statistiliste ja neuromasintõlke süsteemide kombineerimise alal kogemusi ning masintõlgitud teksti toimetab kogenud toimetaja, on tulemuseks tõlge, mis valmib kiiremini ja soodsamalt ning võistleb kvaliteedi poolest luust ja lihast tõlkija tehtud tööga.
Sobivaima tõlketeenuse valimine
Sobiva tõlketeenuse valimisel ja hinnapakkumiste võrdlemisel tee kindlaks, millise tõlketeenuse kohta on pakkumine koostatud. Selgita välja, kas tõlketeenuse hind kehtib professionaalse tõlkija tõlgitud tekstile või tähendab see masintõlget.
Kui soovid tellida toimetatud tõlget, eelista tõlkebürood, kellele on omistatud ISO 17100:2015 kvaliteedisertifikaat. Sel juhul saad büroost elukutselise tõlkija tõlgitud ja toimetatud tõlke.
Kui soovid tellida masintõlketeenust, eelista tõlkebürood, kellele on omistatud ISO 18587:2017 kvaliteedisertifikaat. See näitab, et bürool on vajalikud teadmised masintõlgitava teksti ettevalmistamiseks ja järeltoimetamise korraldamiseks.
Kui vajad sobiva tõlketeenuse valimisel abi, võta meiega ühendust – aitame sinu projektile parima lahenduse leida!