De opmars van de vertaalmachine

Een brein in wording

De neurale netwerkmethode van de nieuwste vertaaltechnologie komt dicht bij de manier waarop onze hersenen werken.

Demonstratie van de menu-vertaalbril van het Japanse bedrijf Docomo © Kiyoshi Ota / Getty Images

Mijn zoon zit in de derde klas van de middelbare school en moet dit jaar een ‘profiel’ kiezen, een vakkenpakket. De mentor van zijn klas vroeg deze week aan alle kinderen om een voorlopige keuze te maken en bij een van de vier mogelijke profielen te gaan staan. Samen met een meisje uit zijn klas was hij als enige leerling bij Cultuur en Maatschappij, het ‘talenprofiel’ gaan staan. De meerderheid van de klas koos exact.

De mentor was blij met zijn voorlopige keuze, want ‘tegenwoordig kiest niemand meer talen en dat is doodzonde’, vond ze. Als talenliefhebber begrijp ik wat ze bedoelt. Maar tegelijkertijd vroeg ik me af of het niet logisch is dat de meeste kinderen geen talenprofiel kiezen. Hebben we niet steeds minder menselijke tolken en vertalers nodig nu de nieuwste technologie steeds betere vertalingen oplevert? Er wordt zelfs gesproken van een revolutie in het veld van de machinevertalingen.

Zo werd in Japan een bril ontworpen die in een restaurant automatisch de menukaart voor je vertaalt. Handig als je geen Japans spreekt. De ontwerper, het Japanse bedrijf Docomo, gaat ervan uit dat de bril tijdens de Olympische Spelen in 2020 door buitenlandse bezoekers kan worden gebruikt. De Google Pixel Buds bestaan nu al en gaan nog een stapje verder: met deze oortjes kun je niet alleen bellen en naar muziek luisteren, je kunt er ook realtime vertalingen via Google Translate mee genereren. En over Google Translate gesproken, met mijn schoonmaakster communiceer ik uitsluitend via dit handige programma; zij spreekt alleen Russisch en Oezbeeks. Natuurlijk is Google Translate verre van perfect. Als ze schrijft dat ze ‘in het voorjaar’ weg is gegaan, moet ik daar zelf uit afleiden dat ze iets vroeger is vertrokken. Toch kan onze relatie slechts bestaan bij de gratie van deze applicatie. En de vertaaltechnologie wordt alleen maar beter, dus wie weet wat de toekomst brengt?

In The Hitchhiker’s Guide to the Galaxy, de beroemde sciencefictionserie uit de jaren tachtig, beschreef Douglas Adams al de ‘Babel fish’: een klein apparaatje in het oor dat alle talen van de wereld direct vertaalt, waardoor iedereen elkaar kan verstaan. Is deze sciencefiction nu ‘science fact’ aan het worden? Hebben we binnenkort allemaal zo’n Babel fish in ons oor? En wat gebeurt er met onze wereld als alle spraakverwarringen tot het verleden behoren en iedereen elkaar verstaat? Is dat überhaupt mogelijk?

Jaap van der Meer, oprichter van Taus, aanbieder van onafhankelijke consultancy en netwerkservices in de vertaalindustrie en vertaaltechnologie, noemt de nieuwste vertaaltechnologie ‘ongelooflijk en fantastisch!’ Hoewel hij in zijn lange loopbaan heus ook ‘andere hoogtepunten’ heeft meegemaakt, is wat er nu gebeurt ‘van een andere orde’. Hij wil dan ook nog lang niet met pensioen: ‘Hier wil ik deel van uitmaken.’

Van der Meer studeerde Nederlands aan de uva en begon daarna ‘per ongeluk’ als vertaler, corrector en proeflezer van computerhandleidingen bij ibm. Hij hoopt dat vertalers het niet opvatten als een belediging, maar zelf vond hij het ‘vrij dom werk’; ‘heel veel was steeds weer hetzelfde’. Bij ibm leerde hij tegelijkertijd veel over computers en zo kwam hij erachter dat het vertalen van computerhandleidingen vrij makkelijk viel te automatiseren. Door de ontwikkeling van kunstmatige intelligentie, toegenomen rekencapaciteit en data, is dit automatiseringsproces de laatste jaren echter in een ware stroomversnelling gekomen.

Tot een paar jaar geleden gebruikten vertaalmachines vooral de zogenaamde ‘statistische methode’. Bij deze methode breekt de computer zinnen op in stukjes van drie of vier woorden om vervolgens in een database te zoeken naar de beste match in de tweede taal. Een ‘nogal oppervlakkige methode’, aldus Van der Meer, die veelal leidt tot onhandige vertalingen.

In de afgelopen paar jaar is in de vertaaltechnologie echter een radicale breuk gemaakt met deze statistische methode en dit heeft te maken met de opkomst van de neurale-netwerkmethode, die gebruik maakt van kunstmatig intelligente leerprocessen. Deze methode is veel verfijnder, omdat het telkens hele zinnen als uitgangspunt neemt en de verdere context van een tekst in ogenschouw neemt. Op die manier kan bijvoorbeeld de precieze vertaling van een woord met meerdere betekenissen uit de context worden afgeleid. ‘Die werkwijze komt erg dicht bij de manier waarop de neurale netwerken in onze hersenen werken’, legt Van der Meer uit. Toch blijft het moeilijk om uit te leggen hoe het nu precies werkt. ‘Zelfs de knappe koppen die deze algoritmen bouwen kunnen het niet uitleggen. Ze weten welke berekeningen worden uitgevoerd, maar niet wat er vervolgens uit die berekeningen komt: de bekende black box.’

Om de algoritmen van data te blijven voorzien, moeten we ook zelf teksten blijven vertalen

Van der Meer ziet dit niet als een onoverkomelijk obstakel. ‘We weten immers ook niet hoe de neurale netwerken van ons brein uiteindelijk onze gedachten vormen.’ Hij is er echter van overtuigd dat de vertaalmachine in toenemende mate het brein simuleert en dat brein en machine gaandeweg in elkaar zullen gaan overvloeien.

Die neurale netwerken moeten telkens worden gevoed met data, in dit geval met tweetalige teksten. ‘De algoritmen zelf worden steeds vaker open source gedeeld en zijn daarmee publiekelijk toegankelijk. De data, dáár gaat het om. Dat is de sleutel.’ Omdat het van belang is om de algoritmen goede data te blijven voeden, moeten we ‘wel degelijk zelf teksten blijven vertalen’. Taal verandert ongemerkt en ‘dat moeten mensen blijven bijhouden’. Volgens Van der Meer hoeft mijn zoon zich geen zorgen te maken over zijn talenprofiel. ‘We hebben juist méér talenmensen nodig!’

Een andere reden dat we meer vertalers nodig hebben is dat het volume van het aantal vertalingen exponentieel is toegenomen. Alle menselijke, beroepsmatige vertalers van de wereld (ongeveer een half miljoen mensen) vertalen met elkaar ongeveer 0,1 procent van alle content (in de vorm van tekst, video en audio), maar de behoefte aan vertalingen wereldwijd is vele malen groter. Een vertaler vertaalt gemiddeld tweeduizend woorden per dag, terwijl Google Translate elke dag volautomatisch tienduizend keer meer woorden vertaalt. ‘Menselijke vertalers kunnen dat niet aan’, aldus Van der Meer. Dat betekent dus meer werk voor de machines, maar ook voor de mensen die deze machines moeten controleren en voeden met ‘goede data’.

Hugo Keizer, language officer bij de Nederlandse vertegenwoordiging van de Europese Commissie, ziet opvallend genoeg dat de jeugd in Europa doorgaans beter zijn talen spreekt dan de oudere generatie. ‘En nee, dat is niet alleen Engels.’ Ook hij ziet dat op dit moment in het veld van de machinevertalingen ‘heel grote stappen’ worden gezet. ‘Het is krachtige technologie, maar er staan natuurlijk ook heus nog wel fouten in.’

Daarom wordt bij vertalers een groter beroep gedaan op ‘post-editing skills’ van machine-vertaalde teksten. Dat lijkt gemakkelijk, maar is soms juist ingewikkelder dan van scratch vertalen. Keizer vertelt dat zo’n door de machine vertaalde tekst vaak prettig leest, maar toch niet klopt. Zo zijn er de ‘terugkerende instinkers’ zoals ontkenningen die ten onrechte wel of juist niet worden overgenomen. Zo’n tekst ‘voelt dan beter’, maar de betekenis is niet juist. ‘Er zijn nog steeds veel valkuilen die de menselijke blik onontbeerlijk maken.’

Het vak van vertaler is hierdoor wel fundamenteel aan het veranderen en in het begin zag Keizer vooral ‘weerstand binnen de professie’. En dat is ook wel begrijpelijk, denkt hij: ‘Post-editing van dit soort kwalitatief goede door de machine vertaalde teksten is tamelijk zwaar.’ Aan de andere kant kan het ook prettig zijn om te werken met machine-vertaalde teksten. ‘Vertalers krijgen per woord betaald en je maakt natuurlijk wel meters op deze manier. Je productiviteit gaat met sprongen vooruit en dat is ook prettig: je schiet veel meer op en hoeft niet alles te herkauwen.’ In de praktijk ziet hij dat in de beroepsgroep vertalers proberen hun nieuwe rol te ‘aanvaarden en er het beste van te maken’. Zo zijn er veel vertalers die proberen hun vak wat breder te trekken door bijvoorbeeld zelf ook teksten te schrijven, maar dat ‘vergt ondernemerschap’. Jaap van der Meer denkt dat alle vertalers er goed aan doen de technologie volledig te omarmen: ‘Ga léven met die machine.’

Bij de Europese Commissie is men er in ieder geval van overtuigd dat de toekomst van vertalingen ligt bij de nieuwe technologie. Om die reden heeft de Commissie een opdracht gegeven aan een consortium van bedrijven om een Europese, allesomvattende vertaalmachine te creëren. Dit e-translation-systeem is nu al live en wordt bijvoorbeeld gebruikt in Europese arbitragezaken. Ambtenaren kunnen een document naar de server sturen en krijgen binnen een minuut de vertaling van dat document teruggestuurd. De vertaalmachine is nu nog vooral gericht op juridische teksten, maar uiteindelijk zal het systeem bestemd zijn voor alle soorten tekst. ‘We zijn op dit moment bezig om het systeem een zeer uitgebreid corpus meertalige teksten over ons Europese domein te voeden.’

Is de Europese Commissie hiermee een soort Europese Google Translate aan het optuigen? Niet helemaal, want de toegang is beperkt tot Europese overheidsinstanties en strekt zich niet uit tot privé-personen. Dat zou ook niet zomaar kunnen onder de nieuwe, in september van dit jaar goedgekeurde Europese auteurswet die ontwikkelaars van kunstmatig intelligente vertaalmachines verplicht om toestemming te vragen aan alle rechthebbenden voor het ‘minen’ van auteursrechtelijk materiaal, ofwel het verzamelen van vertaaldata. Critici menen dat dit schadelijk zal zijn voor de innovatie in Europa, maar Keizer wijst erop dat het gaat om privacy. ‘Veel mensen weten niet dat als zij iets opsturen aan Google Translate, zij daarmee hun tekst openbaar maken en daarmee hun rechten op die tekst prijsgeven. Zoals dit meestal het geval is; als de dienst gratis is, dan ben jij het product. En dat willen we niet in Europa.’ De Europese Commissie valt overigens onder een vrijstelling in de richtlijn en mag dus zelf wel zonder toestemming aan dit soort data mining doen.

‘Als je iets opstuurt aan Google Translate geef je daarmee je rechten op die tekst prijs’

Hoewel computerhandleidingen en Europese standaarddocumentatie wellicht nog door een machine kunnen worden vertaald, lijkt men het erover eens dat de vertaling van literatuur en poëzie van een andere orde is. Op vakantie een menukaart door Google Translate halen blijft iets fundamenteel anders dan het vertalen van Shakespeare. Daarvoor is nog veel meer context nodig dan de computer ter beschikking heeft. Daarvoor is een diepe connectie vereist met de culturele achtergrond en zelfs met de natuurlijke omgeving van de auteur. Die omgeving beïnvloedt immers de taal en andersom.

Neem het TED Talk-filmpje van cognitieve taalwetenschapper Lera Boroditsky dat op internet circuleert. Zij vertelt hierin over de taal van een Aboriginal-volk in Australië, de Kuuk Thaayorre. De mensen die behoren tot dit volk gebruiken geen woorden als links en rechts, maar spreken over oost, west, noord en zuid. Dus in plaats van ‘er zit een mier op mijn linkerbeen’ zouden ze zeggen ‘er zit een mier, zuid/zuidwest, op mijn been’. Waarbij het antwoord anders wordt als de positie van de spreker verandert. De locatie van het zuiden blijft immers gelijk, maar de locatie van de spreker niet.

Met andere woorden: de Kuuk Thaayorre kunnen zichzelf blijkbaar voortdurend, op elk moment van de dag, positioneren in het landschap. Bij wijze van begroeting zeggen ze niet ‘hallo, hoe gaat het?’ maar ‘welke kant ga je op?’, waarop zelfs een vijfjarig kind zou kunnen antwoorden met: ‘Ik ga noord/noordwest in de verre verte.’

Deze conversatie is vrijwel onmogelijk om te vertalen. Niet alleen omdat de inheemse regel bekend moet zijn, maar ook omdat de vertaler de precieze positie van de spreker op het moment dat hij spreekt moet kennen.

Boroditsky noemt dit voorbeeld (en vele andere) om te laten zien hoe taal onze manier van denken vormt. De Kuuk Thaayorre weten kennelijk te allen tijde waar ze zich bevinden in het landschap, terwijl mensen in het Westen zelfs met een duidelijke instructie van de mevrouw van Google Maps om naar het zuiden te gaan, nog steeds niet weten welke kant ze op moeten.

In The New York Times schreef filosoof Costica Bradatan vijf jaar geleden een veel gelezen essay over de filosofische en psychologische implicaties van het schrijven in een tweede taal (Born Again in a Second Language, augustus 2013). Bradatan schrijft: ‘De taal van een schrijver is veel meer dan slechts een manier van uitdrukken; het is een subjectieve manier om te bestaan en een manier om de wereld te ervaren. De schrijver heeft taal niet alleen nodig om dingen te beschrijven, maar om ze te zien.’ Precies die manier van zien blijft tot op zekere hoogte onvertaalbaar.

Nu weten we natuurlijk al lang dat bij elke vertaling van de ene in de andere taal iets van de oorspronkelijke betekenis van een tekst verloren gaat. Zelfs met de snelste machines of met de meest getalenteerde menselijke vertalers zal dit waarschijnlijk altijd wel het geval blijven. Gedeeltelijk is een vertaling misschien het simpelweg ontcijferen van een code. Taal A heeft woordje A voor een tafel en taal B heeft woordje B voor een tafel. ‘Ga van A naar B’ is de vertaalopdracht. Maar voor een ander deel is de taal een onderdeel van de identiteit van de auteur of spreker en zijn omgeving. Misschien bestaan in de taal van een bepaalde omgeving wel geen tafels? Of misschien zien tafels er in land A wel heel anders uit? Dat onderdeel blijft moeilijk te vertalen en is niet te vangen in de formule ‘ga van A naar B’.

Misschien worden machines wel steeds beter in hun werk, waardoor ze ook steeds meer culturele context kunnen meenemen in hun vertalingen, net zoals onze hersenen dit nu kunnen. Vooralsnog blijft echter, zeker in het geval van literatuur en poëzie, de machine nog wel even moeite houden om de fijngevoeligheid van menselijke vertalingen te evenaren.

De beroemde vertaler Mark Polizzotti schrijft in zijn recent uitgekomen boek Sympathy for the Traitor: A Translation Manifesto (2018) dat we hier hoop uit kunnen putten. ‘Bij de vertaling van literatuur, in tegenstelling tot bijvoorbeeld schaken, met zijn wiskundig voorspelbare regels en opties, zullen computers, in ieder geval voorlopig nog een tijdje, maar moeilijk mensen bij kunnen benen.’ Polizzotti geeft als voorbeeld de poging van een Russische vertaalcomputer een paar jaar geleden om de volgende zin te vertalen: ‘The spirit is willing, but the flesh is weak.’ De computer kwam vervolgens terug met: ‘The vodka is strong, but the meat is rotten.’

Jaap van der Meer hoort dergelijke redeneringen regelmatig. En er zijn natuurlijk nog veel meer voorbeelden van grappige vertalingen door ‘domme’ computers. Ook hij denkt dat machines op dit moment nog niet goed genoeg zijn om literatuur en poëzie te vertalen. Nóg niet, want wat niet is kan zeker nog komen. Hij is daarom van mening dat die licht defensieve houding die iemand als Polizzotti aanneemt, de verkeerde insteek is. ‘Het gaat telkens uit van ons menselijk gevoel dat machines iets van ons afpakken. Ha, gelukkig, met literatuur en poëzie hebben wij mensen tenminste nog iets van onszelf waar machines niet aan kunnen komen.’

In plaats daarvan moeten vertalers volgens Van der Meer goed leren samenwerken met vertaalmachines en zich niet bedreigd voelen. Want, zoals Keizer ook benadrukt: ‘Het is geen zero-sumsituatie; de taart wordt alleen maar groter.’