Masintõlge: minevik, olevik, tulevik
Masintõlke algusaastatest
1949. aastal, innustatuna muu hulgas krüptoanalüüsi meetodite arengust II maailmasõja ajal, kirjutas Ameerika teadlane Warren Weaver märgukirja pealkirjaga „Translation“ („Tõlkimine“), milles arutas ühena esimestest arvutite kasutamise võimalusi inimkeelte tõlkimiseks. Kuigi Weaveri kirjutisse suhtuti väga erinevalt, entusiasmist skeptilisuseni, vallandas see peatselt masintõlke võimalikkuse edasiuurimise nii pooldajate kui ka skeptikute leeris.
1954. aastal korraldati nende uurimiste tulemusena New Yorgis Georgetowni Ülikooli ja IBMi koostöös välja töötatud esimese automaatse tõlkesüsteemi avalik esitlus. Selle käigus tõlgiti ligikaudu 60 hoolikalt valitud lauset vene keelest inglise keelde. Selleks tuli venekeelne lause esmalt kanda perfokaardile, mis sisestati seejärel suurarvutisse IBM 701, ning kuue kuni seitsme sekundi jooksul trükkis masin lause välja inglise keeles.
Hoolimata kõnealuse tõlkesüsteemi äärmisest piiratusest käsitleti Georgetowni-IBMi eksperimenti meedias suure eduloona – mida see tol ajal kahtlemata ka oli – ning eksperimendi autorid teatasid, et kolme kuni viie aastaga võib masintõlke probleem saada täielikult lahendatud. Seepeale suunas USA valitsus masintõlkealasesse teadus- ja arendustöösse rohkelt raha, lootes probleemi seljatamist veelgi kiirendada. Nagu teame, nii libedalt see aga ei läinud ja esialgne ind (koos suurema rahastusega) kadus peagi tükiks ajaks.
Sellest ajast saadik on masintõlkes toimunud arvukalt läbimurdeid ja tagasilööke ning meediaväljaannete utoopilised pealkirjad on regulaarselt vaheldunud peatse pettumuse ja kahtlustega, kas kvaliteetne täisautomaatne tõlge on üldse võimalik. Järgnevalt vaatame lähemalt läbi ajaloo paari suuremat arengut masintõlke valdkonnas ja uurime, kuidas eristada tänast hype’i hope’ist ehk pelka turunduslikku vahtu masintõlke tegelikest tulevikuväljavaadetest.
Reeglipõhine masintõlge
Masintõlkesüsteemide teostuses on senini olnud kolm peamist lähenemisviisi. Esimene neist on reeglipõhine masintõlge, mis seisneb huvialuste keelte grammatika ja semantika võimalikult täpses kirjeldamises ning nendevaheliste ülekandeseoste loomises. Sisuliselt tähendab see automaatsõnastike-grammatikaprogrammide koostamist, kus ühe keele elemendid seatakse programmeeritud keelereeglite alusel otsesesse vastavusse teise keele omadega.
Sellise süsteemi suurim tugevus ja nõrkus on selle jäikus: iga reegel tuleb eraldi kirja panna, sealhulgas kõik sõna võimalikud kirjakujud, kontekstist olenevad tähendused, erandid jne, mis nõuab äärmiselt raha- ja ajakulukat programmeerimistööd. Ent kuna eri valdkonna tekstide puhul on grammatikareeglid enamjaolt samad, on selleks, et süsteemi neile kohandada, vaja sobivaks muuta vaid sõnavaliku reegleid. Lisaks ei vaja see töötamiseks ühegi tekstikorpuse olemasolu, mistõttu sobib hästi väikeste keelte tõlkimiseks või vähemalt selles esimeste sammude tegemiseks.
Ka Georgetowni-IBMi eksperimendis kasutatud süsteem oli reeglipõhine masintõlkija. See oli üles ehitatud kõigest kuuele reeglile, kusjuures selle loojad ennustasid, et vabalt valitud venekeelsete teadustekstide edukaks inglise keelde tõlkimiseks võib olla vaja programmeerida ligikaudu 100 reeglit. Tänaseks on loodud ka süsteeme, mille tööd juhitakse kümnete tuhandete reeglitega, ent tulemused on üldkasutatavusest endiselt kaugel. Pealegi, mida rohkem reegleid, seda keerulisem on süsteem, mis suurendab sisemiste vastuolude ja uute vigade tekke ohtu.
Statistiline masintõlge
Statistilise masintõlke põhimõtteid kirjeldas Warren Weaver juba 1949. aastal eelnimetatud kirjutises, kuid ellu viidi need alles 1980. aastate lõpus, sest varem puudusid selleks vajalikud kakskeelsed tekstikorpused ja tehniline võimekus. Statistiline masintõlge seisneb nimelt kakskeelsete paralleelkorpuste (erinevates keeltes kirjutatud samasisuliste tekstide kogude) statistilises analüüsis. See tähendab, et masin toodab tõlkeid selle alusel, kui suure sagedusega esineb ühes keeles kirjutatud sõna või fraasi koha peal korpuses teises keeles vastesõna või -fraas.
Nii Google kui ka Euroopa Komisjon (paljude teiste seas) kasutasid alguses SYSTRANi reeglipõhist tõlkesüsteemi, ent läksid lõpuks (vastavalt 2007. ja 2010. aastal) üle statistilistele süsteemidele. Seda põhiliselt seetõttu, et statistilised süsteemid on odavamad – suurema töö teeb ära masin, mitte reeglite programmeerija –, nende loomiseks ei ole tõlgitavaid keeli vaja sügavalt tunda, need toodavad loomulikumaid tõlkeid, sest võtavad aluseks inimeste koostatud tekstid, need on kasutatavad paljude keelte puhul ilma erilise kohandamiseta ning on korpuste suurenemisel põhimõtteliselt iseparenevad.
Statistilise masintõlke puudused on seesama vajadus suurte korpuste järele (mis paljude keelte puhul ei ole siiani saadaval), valdkondlik piiratus (kui korpus sisaldab tekste paljudest erineva keelekasutusega valdkondadest, muutuvad tulemused ebaühtlaseks) ning raskused väga erineva ehitusega keelte vahel tõlkimisel ja morfoloogiliselt keeruliste keeltega töötamisel. Näiteks ajakirjas Õiguskeel ilmunud artiklis on tõlkija Ingrid Sibul märkinud, et statistilise masintõlke hindamise tulemused Euroopa Komisjonis näitasid, et seal kasutatud süsteem andis inglise keelest tõlkimisel kõige paremaid tulemusi portugali ja hispaania keele puhul ning kõige viletsamaid eesti, soome ja ungari keele korral.
Neuromasintõlge
Kõige uuem lähenemine masintõlkele on neuromasintõlge. Neuromasintõlkes kasutatakse küll samuti keelekorpuseid ja statistilisi arvutusi, kuid neurotõlkemootorid põhinevad tehisnärvivõrkudel. Tehisnärvivõrke n-ö treenitakse tõlkima, mille käigus pannakse need etteantud tekstidest mustreid otsima (mõnevõrra sarnaselt inimajuga), et avastatud mustrite alusel siis juba ise tõlkeid toota. Erinevalt statistilistest tõlkesüsteemidest vaatavad neurotõlkemootorid üksikute fraaside asemel korraga tervet alglauset, mis annab tulemuseks grammatiliselt korrektsemad, soravamad tõlkelaused.
Neurotõlkesüsteemid jõudsid vaid paari aastaga statistiliste tõlkemootorite paarikümne aastaga saavutatud tasemele ning 2016. aasta lõpuks oli neurotõlget hakanud kasutama enamik parimaid masintõlketeenuste pakkujaid, sealhulgas Google, Microsoft, SDL jpt. 2017. aasta lõpul jõudis neurotõlge ka Euroopa Komisjoni. Ent kuigi erinevad võrdlused ja hinnangud on paljude valdkondade ja keelepaaride puhul näidanud uusimate neurotõlkemootorite üleolekut statistilistest mootoritest, on sellelgi süsteemil oma puudused.
Esiteks on neurotõlkegi puhul vaja palju algandmeid – mitme uurimuse järgi rohkemgi kui statistiliste süsteemide puhul, sest ilma selleta ei leia masin õigeid mustreid lihtsalt üles. Teiseks kipuvad neurosüsteemid ohverdama keelelist täpsust soravusele, mistõttu tekib rohkem sisulisi ja terminoloogilisi vigu kui statistiliste tõlkemootorite kasutamisel. Toodetud tõlke üldise loomulikkuse tõttu aga ei pruugi lugeja seda üldse märgatagi. Selle kohta on öeldud, et neuromasintõlge „hallutsineerib“ tõlkeid, võides näiteks sõna Ahvenamaa tõlkida Venemaaks, sest on viimasega tuttavam. Ja kolmandaks, kuna neurotõlkesüsteemid on kinnised, n-ö mustad kastid, mis panevad oma „maailmapildi“ kokku ise, suuresti nähtamatult, on ka raskem nende tööd korrigeerida, sest vigade allikat üles leida on praktiliselt võimatu.
Hübriidsüsteemid
Kuna eelkirjeldatud lähenemistel on kõigil oma tugevused ja nõrkused, on üha enam hakatud katsetama ja neid kombineerima, näiteks eel- või järeltöödeldes neurotõlget statistilise tõlkemootoriga ja vastupidi. Õigetes oludes on sellega saavutatud ka paremaid tõlketulemusi, ent see tähendab seda, et süsteem muutub keerukamaks. Lisaks piirab tõlgete allutamine lisareeglitele või statistikale sellise lahenduse üldkasutatavust, mistõttu annab see parimaid tulemusi kitsastes, kindla stiili ja terminoloogiaga valdkondades. Selliseid lahendusi pakub näiteks keeletehnoloogiaettevõte Omniscien Technologies oma masintõlkeplatvormil Language Studio.
Masintõlke hetkeseis
Masintõlke hetkeseisu kohta võibki öelda, et professionaalses kontekstis sobib see eelkõige kasutamiseks kitsastes valdkondades, kus keelekasutus on väga ühelaadiline ja -mõtteline, näiteks ilmateated, kindlat liiki õigustekstid, tehniliste andmete tabelid jms. Ning ka sellistel juhtudel vaatab harilikult teksti üle inimtõlkija või keeletoimetaja. Üldjuhul saab seda seega kasutada produktiivsuse parandamise vahendina, mitte iseseisva tõlketööriistana.
Ent selleks, et masintõlkest võiks kasu olla, ei peagi see alati täiuslik olema. Tänapäeval on turul kümneid üldmasintõlkerakendusi, mis tõlgivad nii tekste kui ka kõnet, sealhulgas teada-tuntud Google Translate, Skype Translator, Baidu Translate jt. Sellised tõlkesüsteemid teevad oma kõikehaaravuse tõttu sageli küll ränki ja naeruväärseid vigu, kuid võimaldavad tavaliselt sellegipoolest saada aru tõlgitud sõnumi üldmõttest. Sellest võib palju abi olla muu hulgas suhtlusvõrgustikes võõrkeelt kõnelevatest vestluspartneritest arusaamiseks, võõrkeelte iseseisval õppimisel ning tänu paljude selliste teenuste mobiilseadmetesse integreeritusele ka üksinda võõras riigis reisimisel.
Pilguheit haibikardina taha
Kuna masintõlke kasutusvõimalused aina kasvavad, on sellest saanud tulus ülemaailmne äri. Sellest tingituna keerleb kõnealuse teema ümber ka palju turunduslikku haipi, mis tihti meedias edasikandumisel asjatundmatuse ja klõpsulantimise tõttu veelgi võimendub. Masintõlkesüsteemide tegeliku taseme hindamise keerukusest on andnud hea ülevaate Mathias Winther Madsen Kopenhaageni Ülikoolis tehtud magistritöös.
Muu hulgas loetleb ta, et masintõlkealast uurimistööd tehakse sageli suure saladusloori all, süsteemide hindamismeetoditel on palju puudusi, hindamiste enda tausta tihtipeale täpsemalt ei avata ning tiheda konkurentsi tõttu kiputakse saavutusi üles puhuma ja kitsaskohti tegelikust väiksemana näitama. Kõige selle kohta võib leida mitu näidet ainuüksi viimasest aastast (2018). Näiteks tänavu märtsikuus lõid meedias laineid teated, et Microsoft on loonud esimese hiina keele masintõlkesüsteemi, mis suudab tõlkida sama hästi kui inimene.
Esmalt tuleb märkida, et tõlkimine toimus üksnes hiina keelest inglise keelde – mõlema keele kohta on süsteemide arendamiseks saadaval tohutul hulgal andmeid – ja Microsofti süsteemiga tõlgiti ainult üldkeelseid uudiseartikleid. Skeptilisust väljendasid peagi ka mitmed keeleteadlased, kes kritiseerisid muuseas fakti, et tõlgete kvaliteedi hindamisel kasutati mittetõlkijaid ja tõlkeid hinnati üksikute lausete kaupa, mitte terviktekstina (mille loomises masintõlge on endiselt nõrk). Turu-uuringute firma Common Sense Advisory blogis järeldati, et õigem väide oleks, et „masintõlge on nüüd tugevalt tehislikes tingimustes samaväärne kehva kvaliteediga inimtõlkega“.
Teine suur uudis tuli oktoobris, kui Hiina tehnoloogiahiid Baidu teatas, et on loonud sünkroontõlget pakkuva süsteemi STACL, mis tõlgib reaalajas kõnet inglise keelest saksa keelde ja hiina keelest inglise keelde. Senised suulise masintõlke süsteemid on tõlkinud teksti lausehaaval. Baidu süsteemi puhul olevat võimalik täpsuse parandamiseks ka valida, mitu sõna see inimese suust ära ootab, enne kui tõlkima hakkab, ja keeltevaheliste sõnajärjeerinevustega seotud probleemide ületamiseks ennustavat see tulevat teksti juba kuuldu põhjal ette.
Meedias kujutati asja suure vaimustusega ja soovitati tõlkidel isegi CV-sid uuendama hakata, ent kuigi tegemist on kahtlemata sammuga edasi, ei ole see saavutus midagi nii murrangulist, kui kohati püüti näidata. Nagu on kokku võetud keeletehnoloogia turuteabefirma Slatori avaldatud artiklis, on STACL-i tõlkekvaliteet tänapäevaste parimate tõlkesüsteemide omast viletsam isegi pika, viiesõnalise ooteaja puhul, ning süsteem ei ole hetkel võimeline oma võimalikke (ja olgem ausad, ka vältimatuid) ekslikke ennustusi tagantjärele parandama. Teisalt muudavad sellised süsteemid äärmiselt kallid suulise tõlke teenused tulevikus kindlasti laiemalt ja odavamalt kättesaadavaks, kuid mõlemad eeltoodud näited võiksid siiski hoiatada, et meedias avaldatud suurte läbimurrete väidetesse võiks suhtuda ettevaatlikkusega.
Kas masintõlge asendab inimtõlkija?
Masintõlge on oma ligi 70-aastase arengu käigus jõudnud küllalt kaugele. Nõnda kaugele, et isegi pessimist võiks mõelda, et masintõlke probleemi täielikuks lahendamiseks ja tõlkijaameti lõplikuks kaotamiseks ei tohiks kuluda rohkem kui kümme, kõige enam paarkümmend aastat. Seda eriti nüüd, mil mängu on astunud tehisnärvivõrkude ja süvaõppetehnoloogiad, mis vähemalt esmapilgul võivad näida lausutoopilisena. Ent tegelikult ei ole ei statistiline masintõlge ega neurotõlgegi midagi nii meeletult uut ega maagilist: esimesed põhimõtted nende mõlema toimimise kohta pandi kirja juba 1940. aastatel.
Ja nagu Google’i masinõppeteadur François Chollet on öelnud ajakirjas Wired avaldatud artiklis: ainult masinale andmete ettesöötmisega ja närvivõrgukihtide üksteise peale ladumisega ei ole võimalik inimest igati asendada. Tõlkeprotsess on selleks lihtsalt liiga keeruline. Vaadaku masintõlkesüsteem siis korraga üksikut sõna, fraasi või kogu lauset, sellest jääb alati väheks. Seda seetõttu, et (hea) inimtõlkija võtab tõlkimisel muu hulgas arvesse ka „peidetud infot“: kirjutaja suhtumist, lausetevahelisi seoseid, teksti tervikuna, teksti kohta ühiskonnas – st nii kultuurikonteksti kui ka teksti eesmärki –, kõiki oma varasemaid kogemusi ja teadmisi. Ta kasutab sisuliselt kogu oma sidestatud maailmapilti, mis on ehitatud üles ühiskonnas osalemise, selles navigeerimise ja inimeste mõistmaõppimise käigus, ning ei tugine ainult statistikale või üldistele mustritele. Ja vajaduse korral otsib lisateavetki.
Isegi terveid entsüklopeediaid ühendav tarkvarasüsteem aga ei suuda mõista neis sisalduvate kirjete vahelisi seoseid nagu inimmõistus, mis seisneb palju enamas kui arvude ja sõnade talletamises. Seega, nagu Linnalehele antud intevjuus on öelnud Tilde keeletehnoloog Martin Luts: „Seni, kuni masin ei tunne oma tõlke pärast häbi, pole ka masintõlge piisavalt hea.“
Milline on masintõlke tõenäoline tulevik?
Tehniline areng ja ühiskondlik mõju
Nagu juba öeldud, ei pea masintõlge kasulik olemiseks olema täiuslik. Näiteks juba praeguse suurte puudustega Google Translate’i abil tõlgitakse viimastel andmetel ligi 143 miljardit sõna päevas. Masintõlkesüsteemide areng aga kindlasti veel niipea ei peatu ning paljud väiksemad probleemid on ilmselt võimalik lahendada ainuüksi olemasolevate lahenduste kombineerimise ja optimeerimise teel. Ka pisemate keelte kohta saadaolevate andmete hulk suureneb iga päevaga.
Masintõlke täienemise ning e-kaubanduse ja rahvusvahelise suhtluse, kaubanduse ja turismi arengu tulemusena võib igapäevakasutuses oodata masintõlke jätkuvat levikut suhtlusvõrgustikesse, nutitelefonide kaamera- ja helisalvestusrakendustesse, veebipoodidesse jms. Võib isegi spekuleerida, et maailmas, kus argised keelebarjäärid saab ületada mõne nupuvajutusega, võib esiteks hakata vähenema võõrkeelte valdamise oskus ning teiseks, kui masintõlgete loomulikkus ei parane piisavalt kiiresti, kuid vajadus nende järele suureneb, võivad need hakata mõjutama ka inimeste loomulikku keelekasutust.
Tõlketöö tulevik
Masintõlke arengust ei jää kahtlemata puutumata tõlkijate ja tõlkebüroode töögi. Võib oodata, et kuivemad, ühenäolisemad kommertstekstid, nagu kasutusjuhendid ja masstoodetud dokumendid, langevad üha enam masintõlke saagiks. Siiski ei ole tõenäoline, et nendegi puhul inimjärelevalve täielikult kaob, küll aga jääb tõlkija üha enam toimetaja rolli ja peab paremini aduma masinate mõttemaailma, et tunda nende kitsaskohti ja osata neile reageerida.
Kuna parimaid tulemusi annab masintõlge vähemalt mõnda aega edaspidigi kitsastes valdkondades, peavad tulevased tõlkijad tundma senisest paremini erinevaid süsteeme ning oskama neid tõlkeprojektide valdkonna järgi valida ja rakendada, astudes seega aina rohkem tehnoloogi rolli. Tekstide puhul, mille tõlked peavad olema laitmatu kvaliteediga, jääb aga inimtõlkija lähitulevikus kindlasti asendamatuks. Sama kehtib loominguliste ja ka kehvasti koostatud – ebareeglipäraste ja seega masinale arusaamatute – tekstide kohta. Nagu on märgitud eespool mainitud Common Sense Advisory blogis, tähendab see kõik, et masintõlke pärast peaks muret tundma ainult selline tõlkija, kes tõlgib nagu masin.
Tõlketeenuste turu tulevik
Ent kas masintõlke kvaliteedi paranemine ja levik tähendab, et tõlkijate ja tõlkebüroode tööpõld tõmbub kokku? Isegi kui masintõlge ei suuda kõike, võiks ju arvata, et kui see suurendab tõlkija produktiivsust, st üks tõlkija teeb masintõlke abil ära rohkem tööd kui varem, ei ole enam vaja nii palju tõlkijaid kui praegusel hetkel. Tegelik trend on vähemalt praegu aga risti vastupidine. Tõlketeenuste odavnemine, nende kättesaadavuse paranemine ja tellimuste kiirem täitmine on nõudlust vaid kasvatanud. 2014. aastal valis USA ettevõtlusajakiri Inc. tõlketeenuste sektori ettevõtluse alustamiseks üheks parimaks valdkonnaks ning Common Sense Advisory ennustab 2018. aasta seisuga sektori kasvu jätkumist.
Selle kasvu taga on muu hulgas seisnud ettevõtete üleilmastumine ja e-kaubanduse areng, mida odavamad, kvaliteetsemad ja kättesaadavamad keeleteenused on omakorda vaid võimendanud. E-kaubandusest ja muudest internetiteenustest jällegi on välja kasvanud näiteks veebisaitide lokaliseerimise teenused, mis on küllalt loominguline töö, milleni masintõlge veel oluliselt ei küündi. Masintõlke areng mõjutab tõlkemaailma aga täpselt samas, teenuste odavnemise, nende kättesaadavuse paranemise ja tellimuste kiirema täitmise suunas, mis kindlasti avab veel uusi uksi. Kuigi nii nagu tehisintellekti puhul üldiselt ei ole veel selge, kas pikemas perspektiivis avaneb selliseid uusi uksi rohkem, kui sulgub vanu, siis vähemalt lähikümnenditel masintõlge headelt tõlkijatelt tõenäoliselt leiba laualt ära ei võta, eriti meie oma, eesti keele puhul.