Levinumad vead masintõlkes

Raili

Blog, Tehnoloogia19 november, 2024

[addtoany]

Masintõlge on tulnud, et jääda. Aastal 2024, peale AI (ai-kui-mõnus tõlkida, ai-kui-valus toimetada) tormilist sisenemist tõlkemaailma, oskab masintõlke võimalusi vähemalt algtasemel kasutada juba igaüks. Masin on kiire ja odav, ta ei jäta sõnu ega lauseid vahele ning paneb võõrkeelse teksti mõne sekundiga sinu emakeelde. Lihtsama ja tüüpilisema sõnastusega dokumendid, näiteks kasutusjuhendid ja standardse sõnastusega lepingud, tõlgib masin ära üsna täpselt.

Kuid kõigist neist suurepärastest eelistest hoolimata ei saa inimene masinat kunagi täielikult usaldada. Miks? Sellest räägimegi allpool.

Masintõlkevead võib üldjoontes jagada kolmeks: sõna, lause ja teksti tasandi vead. Kõige lihtsam on parandada sõna tasandit, s.t asendada sobimatu sõna või termin läbivalt õigega. Kõige keerulisem on arvestada tõlkimisel teksti tasandit, sealhulgas stiili-, keele- ja kultuurierinevusi.

1. Sõnasõnalisus ehk sobimatu otsetõlge

Esimene märk, et tegu on masinast läbi lastud failiga, mida inimene pole puutunud, on liigne originaalitruudus. Selline tõlge on ülipüüdlik ja täpne ning seda lugedes tekib mõte, et inimesed ju nii ei räägi.

Näiteks pakub masin ingliskeelse fraasi casual conversation vasteks „juhuslik vestlus“ (korrektne tõlge võiks aga olla „vaba vestlus“) ja trouble shooting on masina meelest „probleemide laskmine“ (nii tore oleks ju probleeme lasta, aga eesti keeles räägitakse siiski „probleemide lahendamisest“). Ja veeautomaate müüv ettevõte soovib masina koostatud tekstis, et su pere oleks hüdreeritud (ingl k hydrated, mille korrektne tõlge kõnealuses kontekstis võiks olla pigem „veega hästi varustatud“).

Tõlkijal-toimetajal ja miks mitte ka ettevõtte (potentsiaalsel) kliendil võib selliseid tõlkeid olla vägagi lõbus lugeda, iseasi, kas ka algteksti tähendus pärale jõuab.

2. Kontekstitundlikkuse puudumine ja valed seosed

Nagu teame, on keel väga mitmekesine ja rikas, enamik sõnu kannab mitut tähendust ja sõnade valik sõltub palju kasutusvaldkonnast. Masinale on raske selgeks teha, kellele on tekst suunatud (vanuserühm, haridustase, rühmakuuluvus, vaated-veendumused) või mis on teksti peaeesmärk (näiteks ametliku või mitteametliku teabe edastamine).

Näide:

brief interruption – lühiajaline katkestamine

Konteksti teadmata on see pealtnäha loogiline tõlge. Seadme juhendi puhul ehk õigegi. Aga kui räägitakse laste psühholoogiast, on sobiv termin hoopis „lühiajaline sekkumine“.

Valed seosed võivad ülikergesti tekkida siis, kui algtekstis on mingi oluline sõna puudu või üle.

Näide:

eating apple trees – õunapuude söömine

On see mõni uus rohelise eluviisiga inimeste trend? Tekstist selgub siiski, et süüakse õunu, mitte puid.

3. Järjekindlusetus sõna- ja terminikasutuses

Järjekindlusetus ilmneb selgemini pikema teksti puhul. Ent masin võib tõlkida ühe ja sama sõna või termini erinevalt isegi kahes järjestikuses lauses – tähelepanelik tõlkija ei tee seda kunagi.

Näiteid:

baromeetriline rõhk vs. õhurõhk

heakskiitev otsus vs. heakskiitmisotsus

individuaalne isolatsioon vs. üksikisiku isoleeritus

tüüp vs. liik

määratlema vs. identifitseerima vs. kindlaks määrama

Olgu vahelepõikena öeldud, et masintõlke puhul võib lisaks järjekindlusetuse probleemile esineda ka teksti üheülbalisust ja omanäotust. Põhjus on selles, et masin eelistab üht kindlat sõna teistele, harvem kasutatavatele sõnadele ning selle tagajärjel sünnibki sünonüümidevaene tekst. Õigustekstide puhul on see mõistetav ja lausa vajalik, aga ajakirjandus- või turundusteksti puhul näitab see keelevaesust, mis pigem kahjustab teksti.

Näiteks on masintõlke maailma vallutanud sõna „hõlmama“. Hõlmata saab kõike – probleeme, inimesi, esemeid, dokumente, ideid. Ent tihtipeale tasub see asendada mõne täpsema tegusõnaga, näiteks sõnadega „sisaldama“, „puudutama“ või „käsitlema“.

Veel üks asjaolu, mis tõlkimisel omajagu peavalu valmistab ning millega nii masin kui ka inimene peab arvestama, on sina– ja teie-vormi kasutus (ingl k you).

You are the best. You love it. – Sa oled parim. Te armastate seda.

Pikemas tekstis võib „sinast“ saada kergesti „teie“, mis hiljem asendub sujuvalt taas sina-vormiga. See on toimetamata masintõlke puhul väga tavaline viga, kuid seda on õnneks kerge parandada.

4. Ebavajalikud sõnakordused, asesõnade rohkus

Inimtõlkija tajub, kui lauses on midagi liiast või midagi kordub. Ta viskab üleliigse välja või püüab lause ümber sõnastada. Masin on aga programmeeritud põhimõttel, et kõik sõnad tuleb ära tõlkida.

Näide:

A second assessment is then carried out to ensure the safety of the employee, guaranteeing a rapid response to any potential risk.

Seejärel viiakse läbi teine hindamine, et tagada töötaja ohutus, mis tagab kiire reageerimise võimalikule riskile.

Tagamist tagatakse korduvalt, et kogu tegevuse puhul saaks olla ikka kindel, et see saab tehtud. Lause võiks sõnastada ümber nii:

Seejärel tehakse teine hindamine, et tagada töötaja ohutus ning kiire reageerimine võimalikule riskile.

Kõige sagedamini kordab masin asesõnu, mida mõnikord ei märka ka kogenud tõlkija. Sel juhul avitab keeletoimetaja ehk teine silmapaar.

Näide:

To better understand its customers’ needs, strengthen relationships and present its innovations.

Et paremini mõista oma klientide vajadusi, tugevdada suhteid ja tutvustada oma uuendusi.

Asesõna „oma“ ei anna sisule kuigi palju juurde, saab ka ilma:

Et mõista paremini klientide vajadusi, tugevdada suhteid ja tutvustada uusi tooteid.

Veel üks näide:

It will be the largest in the country.

Sellest saab riigi suurim.

Konteksti ja teksti tasandit arvestamata ei saa masin selliste pealtnäha ülilihtsate lausete tõlkimisega hakkama. Eestlane tahab, et lauses oleks rohkem infot, seega ütleb ta:

Sellest saab riigi suurim hüdroelektrijaam. / See hüdroelektrijaam on valmides riigi suurim.

5. Lause struktuur ja grammatika: sõnajärg

Eesti keele sõnajärg on suhteliselt vaba, ometi on tajutav, kui teema (tuntud info) ja reema (uus info) ei ole paigas. Eesti keele puhul paikneb teema lause alguses ehk enne reemat. Masin seda aga ei tea, mistõttu näiteks inglise keelest masina abil tõlgitud lauset lugedes võib see tunduda olevat justkui pea peale pööratud. Sõnade järjekord lauses oleneb ka eelnevatest ja järgnevatest lausetest, kuid masin ei tea, millest räägiti eespool või millest tuleb juttu järgnevalt, s.t ta ei tuvasta, milline on uus ja milline on vana info, ning matkib lähtekeele sõnajärge.

Teema ja reema probleemkohti on põhjalikult käsitletud ühes 2013. aasta magistritöös, kus jagatakse vead tõlkijast sõltuvateks ja tõlkijast sõltumatuteks ning tuuakse rohkelt näiteid. Kuna eesti ja inglise keele puhul peetakse teemaks ja reemaks üsna erinevaid asju – inglise keele fikseeritud sõnajärg võimaldab teemal ja reemal paikneda ka muudel positsioonidel kui vastavalt lause alguses ja lõpus –, siis seda enam on lause teatestruktuur masintõlkes vigane.

Järgmine näitelõik on võetud ühest originaalartiklist ning võrreldud on masintõlget ja inimese tehtud tõlget.

Originaaltekst: After the implosion of the asset bubbles, the domestic non-traded goods sector held the largest share of unprofitable companies. While bank lending to exporting (trading goods) sector diminished in the 1990’s, bank lending to the non-traded good sector actually increased. Thus, Japanese banks kept extending lines of credit to unprofitable firms to avoid losses that would have occurred if the firms would have gone bust. This zombified the Japanese economy.

Masintõlge: Varamullide lõhkemise järel oli kodumaisel mittekaubeldavatel kaupade sektoril suurim osa kahjumlikes ettevõtetes. Kui 1990. aastatel pankade laenud eksportivale (kaupadega kauplemise) sektorile vähenesid, siis pankade laenud mittekaubeldavatele kaupade sektorile tegelikult kasvasid. Seega jätkasid Jaapani pangad krediidiliinide pikendamist kahjumlikele ettevõtetele, et vältida kahjumit, mis oleks tekkinud siis, kui ettevõtted oleksid pankrotti läinud. See zombistas Jaapani majandust.

Inimtõlge: Pärast varamullide lõhkemist oli kahjumlikke ettevõtteid enim nende firmade seas, kes müüsid kodumaisele turule. Kui eksportijatele antavad laenud (1990ndatel) kahanesid, siis kohalikule turule müüvatele firmadele anti hoopis laenu juurde. Seega – Jaapani pangad jätkasid kehvadele äridele laenamist, sest nende pankrot oleks tähendanud pankadele suuri kaotusi. Jaapanis kinnitas kanda zombi-majandus.

Kiire analüüs näitab, et inglise keeles on sõnajärje alusel rõhk pigem kahjumlikel ettevõtetel, aga eesti keeles hoopis laenamisel ja laenudel. Eesti keele puhul sõltub sõnajärjest, mida tahetakse tekstiga üldkokkuvõttes öelda ehk milline on selle peateema (uuem või tähtsam info viiakse lause lõppu). Kindlasti vajab see teema masintõlke seisukohast rohkem järelemõtlemist ja uurimist.

6. Keelespetsiifilised erisused ning kultuurikontekst, keelekujundid ja stiil

Konkreetse keele spetsiifiliste erisuste tundmine ja nende märkamine on päris keeruline isegi inimese jaoks. Järgnevalt paar näidet:

company follows virtuos practices – ettevõte järgib vooruslikke tavasid (mõeldud seda, et töötajad käituvad ausalt)

Kujundite tõlkimisel võib masin üsna kergesti puusse panna. Läheb veel tükk aega, enne kui masintõlkeprogrammid hakkavad pakkuma sobivaid keelekujundeid, näiteks metafoore, kõnekäändusid ja vanasõnu, mille tõlkimisel on vaja leida võimalikult lähedane vaste teises keeles ja kultuuris. Inimtõlkija kasutab sobiva sõna või fraasi leidmiseks peale programmi ka muid keeleressursse, näiteks sõnastikke, terminibaase ja seletavaid sõnaraamatuid, ning arvestab ka konteksti ja stiili.

7. Teksti tasandi vead

Tekst peab olema terviklik, selle struktuur lihtne ja loogiline. Kui algtekst on hoolikalt läbi mõeldud, siis on ka tõlketulemus parem. Teksti tasandil võib masintõlke veana esile tuua alapealkirjade ebaühtluse. Võrdleme näiteks järgmisi ühes tekstis kasutatud pealkirju:

Growth – Kasv

Sustainability – Jätkusuutlikkus

Smart – Nutikas

Kui kasvõi üks alapealkiri on lähtekeeles esitatud teistest erinevas vormis (näites eeltoodud pealkirjades nimisõna ja omadussõna vaheldumine), jääb see masinal märkamata, ent inimtõlkija parandab sellised vead üldjuhul töö käigus ära („Nutikas“ asemel „Nutikus“).

Veelgi tavalisem on ebaühtlus loeteludes:

ensure consistency – tagada järjekindlus

creating a clear structure – selge struktuuri loomine

Antud juhul võiks eelistada läbivalt da-infinitiivi („luua selge struktuur“).

Kokkuvõtteks

Nagu juba 2019. aastal Toimetaja blogis kirjutasime, peame masintõlke vigade märkamiseks paremini aduma masinate n-ö mõttemaailma, et tunda ära nende kitsaskohti ja osata neile reageerida.

Masin on tark, kohati palju targem kui inimene. Aga kaks aju on ikka kaks aju. Kasuta masina abi, ent usalda pigem ennast ja oma aru. Usalda tõlkeid, mille valmimisel on masinat kasutatud hea töövahendina, ent tööprotsessi on olnud kaasatud ka inimene. Ära loodagi saada head teksti, kui pole inimsilmal lasknud seda üle vaadata.

Märksõnad: Masintõlge Masintõlke järeltoimetamine Masintõlke toimetamine Masintõlke vead Vead masintõlkes