Google Translate’-achtig programma voor Akkadisch spijkerschrift maakt het mogelijk om tienduizenden gedigitaliseerde maar ongelezen tabletten te vertalen naar het Engels. Nauwkeurigheid is discutabel

Spijkerschrift is de oudst bekende vorm van schrift, maar het is zo moeilijk te lezen dat slechts een paar honderd experts over de hele wereld de kleitabletten vol wigvormige symbolen kunnen decoderen. Nu heeft een team van archeologen en computerwetenschappers uit Israël een AI-gestuurd vertaalprogramma gemaakt voor het oude Akkadische spijkerschrift, waarmee tienduizenden reeds gedigitaliseerde tabletten onmiddellijk naar het Engels kunnen worden vertaald.

Wereldwijd bezitten bibliotheken, musea en universiteiten meer dan een half miljoen kleitabletten met spijkerschrift. Maar door het grote aantal teksten en het kleine aantal Akkadische lezers – een taal die al 2000 jaar door niemand gesproken of geschreven wordt – is slechts een klein deel van deze tabletten vertaald.

Met een nieuw programma van het Google Translate-type kunnen leunstoelarcheologen misschien zelf proberen het spijkerschrift te interpreteren.

“Wat er zo geweldig aan is, is dat ik helemaal geen Akkadisch hoef te begrijpen om een tablet te vertalen en te begrijpen wat er achter het spijkerschrift zit”, zegt Gai Gutherz, een computerwetenschapper die deel uitmaakte van het team dat het programma ontwikkelde. “Ik kan gewoon het algoritme gebruiken om te begrijpen en te ontdekken wat het verleden te zeggen heeft.”

Het project begon als een afstudeerproject voor Gutherz aan de Tel Aviv Universiteit. In mei publiceerde het team een onderzoekspaper in het peer-reviewed PNAS Nexus, van de Oxford University Press, waarin de neurale automatische vertaling van Akkadisch naar Engels werd beschreven.

Neurale automatische vertaling, ook gebruikt door Google Translate, Baidu translate en andere vertaalmachines, zet woorden om in een reeks getallen en gebruikt een complexe wiskundige formule, een neuraal netwerk genaamd, om een zin in een andere taal weer te geven in een nauwkeuriger en natuurlijker zinsconstructie dan woord-voor-woord vertalen.

This undated photo provided by the Bible Lands Museum shows tablets with cuneiform writing, one of the world’s earliest scripts, on display in Jerusalem. (AP Photo/Avi Noam, Bible Lands Museum)

 

Akkadisch werd geschreven en gesproken in Mesopotamië en het Midden-Oosten van ongeveer 3000 voor Christus tot 100 na Christus. Het was de lingua franca van die tijd, waardoor mensen uit verschillende regio’s met elkaar konden communiceren. De taal splitste zich rond 2000 v. Chr. in Assyrisch Akkadisch en Babylonisch Akkadisch. Vanaf ongeveer 600 v. Chr. begon het Aramees langzaam het Akkadisch te vervangen, totdat het veel meer gesproken werd.

Het Akkadisch en zijn voorganger, het Soemerisch, werden geschreven met spijkerschrift, waarbij een geslepen riet wigvormige markeringen maakt op een nat stuk klei. Het Akkadisch en Soemerisch spijkerschrift zijn de vroegste geschreven talen die ooit ontdekt zijn, hoewel er veel meer Akkadische dan Soemerische teksten beschikbaar zijn.

Het vertalen van alle nog onvertaalde tabletten kan ons inzicht geven in de eerste dagen van de geschiedenis

“Het vertalen van alle tabletten die nog onvertaald zijn kan ons inzicht geven in de eerste dagen van de geschiedenis, in de beschaving van die mensen, waar ze in geloofden, waar ze over spraken, wat ze documenteerden,” zei Gutherz.

Sommige van de vertaalde tabletten bevatten informatie die vandaag de dag nog steeds relevant is. “Als hij zijn kleding reinigt, zullen zijn dagen lang zijn,” aldus een Akkadische schrijver meer dan 3000 jaar geleden.

Tablet Inscribed with a Fragment of the Babylonian Flood Story Epic of Atrahasis in Akkadian, Mesopotamia, First Dynasty of Babylon, reign of King Ammi-saduqa (ca. 1646–1626 BCE). (The Morgan Library & Museum)

Het team deelt zijn open source onderzoek ook online, in de hoop dat andere experts vertaalprogramma’s kunnen maken voor andere oude of dode talen, aldus Guetherz.

Verloren in vertaling?
Vertalen is een kunstvorm, dus het kan moeilijk zijn om numeriek te meten wat een “goede” vertaling is, zei Gutherz. Om de vertalingen te beoordelen, gebruikten de onderzoekers de Best Bilingual Evaluation Understudy 4 (BLEU4), een evaluatie-instrument dat begin jaren 2000 werd ontwikkeld om automatisch de nauwkeurigheid van machinaal gemaakte vertalingen te meten.

Volgens het onderzoek leverde de neurale automatische vertaling een BLEU4-score op van 36,52 voor spijkerschrift naar Engels en een score van 37,47 voor getranslitereerd spijkerschrift naar Engels. BLEU4 scores lopen van 0 tot 100, waarbij 0 het laagste is en 100 een perfecte vertaling, die zelfs een menselijke vertaler niet zou kunnen bereiken. Ongeveer 37 wordt als redelijk goed beschouwd voor een vertaalmodel in een vroeg stadium, legt Gutherz uit.

Gutherz zei dat Google Translate, een particulier gefinancierde commerciële tool die al meer dan tien jaar bestaat, een BLEU4-score van ongeveer 60 zou halen bij het vertalen van Spaans naar Engels.

“Een van de belangrijkste resultaten van het onderzoek is dat we hebben laten zien dat het mogelijk is om een vertaling van hoge kwaliteit rechtstreeks van spijkerschrift naar het Engels te maken,” zei Gutherz, die eerder software-ingenieur voor Google was en nu een AI-bedrijf begint met andere technologie uit dit project. Het huidige tijdrovende onderzoeksproces vereist meestal dat experts het spijkerschrift eerst vertalen naar de Latijnse transliteratie en dan grotendeels naar het Engels.

A rendering of how AI translates Akkadian cuneiform into English, using Latin transliteration or going straight to English. (courtesy Gai Gutherz)

In 2020 publiceerden Gutherz, archeoloog prof. Shai Gordin van de Ariel Universiteit en anderen een artikel over het gebruik van AI om Akkadisch spijkerschrift te vertalen naar een getranslitereerd Latijns schrift. Het getranslitereerde schrift leest als een onzinnige verzameling letters en cijfers voor het ongeoefende oog, maar is een gemeenschappelijke “taal” die archeologen en onderzoekers in staat stelt om spijkerschrift over de hele wereld te bestuderen en te bespreken.

In de paper uit 2020 was het team in staat om AI te gebruiken om 97 procent nauwkeurigheid te bereiken van Akkadisch spijkerschrift naar getranslitereerd Latijns schrift. Dit is een veel eenvoudiger proces, omdat het werkt door de spijkerschriftsymbolen te vertalen naar een enkel woord en de woorden in dezelfde volgorde te houden als waarin ze werden gevonden.

Het vertalen van Akkadisch naar Engels of getranslitereerd schrift naar Engels is een veel gecompliceerder proces omdat het vereist dat de computer volledige zinnen aan elkaar rijgt die zinvol zijn in het Engels, dat in een andere syntactische volgorde is geschreven.

Sommige vertalingen waren erg goed… en sommige waren totale ‘hallucinaties’.

Gutherz zei dat ondanks de complexiteit de AI-vertalingen beter presteerden dan verwacht, hoewel het programma nog in de beginfase zit en verre van precies is. Het was voorspelbaar dat de AI nauwkeuriger was bij formuleteksten, zoals koninklijke verordeningen of waarzeggerij, die een bepaald patroon volgen. Bij meer literaire en poëtische teksten, zoals brieven van priesters of verdragen, kwamen vaker “hallucinaties” voor, een AI-term die betekent dat de machine een resultaat produceerde dat geen verband houdt met de geleverde tekst.

Members of the team that piloted AI to translate Akkadian cuneiform present their work at a conference. (courtesy, Gai Gutherz)

Een van de dingen die de onderzoekers het meest verrasten is dat de vertalingen de stijl of het ritme van een bepaald genre vastlegden, zodat ze, simpelweg op basis van de stijl van de vertaling, konden bepalen of de tekst een formeel juridisch document, astrologisch verslag of wetenschappelijke brief was.

“Sommige vertalingen waren erg goed, sommige kwamen in de buurt van het punt waarop je er vanuit zou kunnen gaan, maar dan zou je het handmatig nauwkeuriger moeten maken, en sommige waren totale hallucinaties,” zei Gutherz. “Dit is de eerste stap voor een automatische vertaling voor Akkadisch en oude talen, en ik hoop echt dat er meer onderzoek wordt gedaan op dit gebied en dat vertalingen beter worden en een hogere nauwkeurigheid hebben.”

Net als Google Translate
De grootste uitdaging voor het trainen van het AI-model was de beperkte hoeveelheid materiaal – afbeeldingen van tabletten en vertaalde tabletten – die het team beschikbaar had om het AI-model te trainen. Zelfs de grootste online databases van Akkadische tabletten hebben slechts tienduizenden vermeldingen.

“De hoeveelheid gegevens waarop je traint is correlatief met hoe goed je kunt presteren, en hoe meer gegevens je hebt, hoe beter je modellen zullen zijn,” zei Gutherz. “ChatGPT werkt zo goed omdat ze erin geslaagd zijn om het te trainen op eigenlijk het hele internet. Voor ons was de belangrijkste taak in het begin het verzamelen van alle mogelijke vertalingen die we konden krijgen, om zoveel mogelijk voorbeelden te genereren.”

Gai Gutherz, part of the team that is piloting AI to translate Akkadian cuneiform. (courtesy)

Het team haalde hun monsters uit ORACC, het Open Richly Annotated Cuneiform Corpus, een online database van de Universiteit van Pennsylvania. Voor de gegevens die ze konden scannen, gebruikten de onderzoekers 90% van het materiaal voor training (50.544 zinnen), 5% voor validatie (2.808 zinnen) en 5% voor testen (2.808 zinnen).

Gedurende de 3000 jaar dat het Akkadisch werd gebruikt, zijn er enorme variaties. Geschreven Akkadisch die 1000 jaar uit elkaar liggen, kunnen compleet verschillende spijkerschriftsymbolen hebben en er waren verschillen in dialecten, wat de complexiteit nog groter maakt.

Gutherz zei dat hij voor zijn afstudeerproject in natuurlijke taalverwerking (NLP) besloot om zich met oude talen bezig te houden, nadat archeoloog prof. Shai Gordin, hoofddocent Assyriologie en Digitale Geesteswetenschappen aan de Ariel Universiteit, een presentatie gaf voor zijn NLP-klas.

Niet veel onderzoekers proberen met moderne computerwetenschappelijke methoden te werken aan oude talen

“Ik ben geïnteresseerd in geschiedenis, ik denk dat het ons veel kan leren,” zei Gutherz. “Ik realiseer me dat er niet veel onderzoekers zijn die met moderne computerwetenschappelijke methoden proberen te werken aan oude talen. Het is een gebied waarvan ik vond dat ik eraan kon bijdragen omdat het niet in de schijnwerpers staat… er werken niet veel mensen aan.”

Klik gewoon op ‘vertalen
Een vroege demoversie van het vertaalproject van spijkerschrift naar transliteratie is online beschikbaar voor het publiek op een portal genaamd The Babylon Engine. Het onderzoek en de broncode voor het huidige project zijn te vinden op GitHub op Akkademia en het Colaboratorium.

Niet alle Akkadische experts staan echter in de rij om de nieuwe technologie te gebruiken.

“Ik ben een filoloog van de oude stempel die aan een tafel zit, naar de tabletten kijkt en ze leest zoals mensen dat duizenden jaren lang hebben gedaan”, zegt prof. Nathan Wasserman, professor Assyriologie aan het Instituut voor Archeologie van de Hebreeuwse Universiteit van Jeruzalem. Hij heeft de AI-vertaalmogelijkheden in het artikel bekeken, maar is er niet van overtuigd dat ze nuttig voor hem zouden zijn.

“We zijn post-ChatGPT en we leven nu in een andere wereld, dus als ik zeg, ‘Het zal niet werken,’ dan kom ik dom over,” zei Wasserman. “Natuurlijk zal het werken, ik ben gisteren niet vanaf de maan geland. Maar voor diepere en minder formele teksten is dit nog lang niet bruikbaar.”

Prof. Nathan Wasserman, professor of Assyriology at the Institute of Archaeology at the Hebrew University of Jerusalem. (courtesy)

Wassermans expertisegebied zijn de meest ingewikkelde en poëtische Akkadische teksten, waaronder hymnen, gebeden en mythen, die vaak op tabletten staan die in de slechtste staat verkeren en uitzonderlijk moeilijk te lezen zijn. Zijn werk draait niet alleen om vertalen, maar ook om het begrijpen van de context binnen de Akkadische cultuur en literatuur, zei hij. En hij is geïnteresseerd in de manier waarop deze technologie zich ontwikkelt, ook al haast hij zich niet om het nu al te gebruiken.

“Ik ben oud genoeg om de start van Google Translate te herinneren, en het was een grap, maar nu kun je grote hoeveelheden teksten doen en een min of meer fatsoenlijk resultaat krijgen, ” zei hij. “Maar wat gebeurt er als je Hamlet in Google Translate stopt, krijg je dan een fatsoenlijke vertaling van Shakespeare’s Hamlet?”

Wasserman zei dat hij denkt dat AI het nuttigst kan zijn om grote hoeveelheden gedigitaliseerde tabletten te scannen en te proberen verbanden te vinden. De namen van een bepaalde priester of koning kunnen bijvoorbeeld opduiken op twee totaal ongerelateerde tabletten, misschien zelfs op tabletten die op verschillende locaties zijn gevonden en in verschillende bibliotheken zijn ondergebracht. Hij is ook nieuwsgierig naar het gebruik van het programma om statistieken bij te houden over het gebruik van verschillende woorden, waaronder de chronologische of geografische verspreiding van bepaalde woorden.

A stone tablet with cuneiform writing is seen in the foreground, as UNESCO’s Iraq representative, Louise Haxthausen, documents the damage wreaked by the Islamic State group at the ancient site of Nimrud, Iraq, on December 14, 2016. (AP Photo/Maya Alleruzzo)

Wasserman rekent zichzelf tot de ” old school” onderzoekers, maar hij is geen tegenstander van het gebruik van technologie voor oude talen. Wasserman maakte deel uit van het team dat SEAL, Sources of Early Akkadian Literature, ontwikkelde. De online database, gehost door de Hebreeuwse Universiteit, was een van de baanbrekende digitaliseringsprojecten van Akkadische spijkerschrifttabletten toen het in 2010 van start ging. Er worden nog steeds regelmatig nieuwe gedigitaliseerde tabletten geüpload en de site is vandaag de dag nog steeds een van de grootste depots van Akkadische literaire werken uit 3000-1000 v. Chr.

“Ik maak me geen zorgen over AI, ik ben nieuwsgierig, het is een ‘brave new world’ en ik ben benieuwd wat er gaat gebeuren,” zei hij. “Het is niet alsof ik in een bank werk en me zorgen maak dat ik naar huis wordt gestuurd omdat een machine mijn werk zal doen.”

“Als je een tekst hebt, zelfs als je de woorden correct hebt, betekent dat nog niet dat je begrijpt wat er staat. Daarvoor heb je nog steeds de menselijke geest nodig,” zei hij. “Ik ben niet bang voor de AI, maar we moeten er ook niet helemaal verliefd op zijn. Het moet worden geëvalueerd voor wat het voor ons kan doen, en voor wat het niet kan doen.”

__________________________________________________________

Bronvermelding:

Datum:
17-6-2023

Auteur:
Melanie Lidman

Beeld:
Reverse side of Neo-Babylonian cuneiform tablet YBC 3831 with upper broken section. (Courtesy of the Yale Peabody Museum of Natural History, the Yale Babylonian Collection/Photography: Klaus Wagensonner)

 

 

 

EN / NL/ עב