Computer reconstrueert het Latijn

Zomaar een Latijnse inscriptie met mooie letters (Timgad)

Het idee dat de taalkunde een exacte wetenschap kan zijn, is een negentiende-eeuwse gedachte. Taalkundigen ontdekten toen dat de verschillen tussen talen systematisch kunnen zijn: waar Romaanse talen een p hebben, hebben Germaanse een of een vpater correspondeert met vader, pied met voet, pellis met vel. Zulke regelmatigheden noemen we een wet. In dit geval is de voorouder van de Germaanse talen waarschijnlijk ooit gaan afwijken: de p werd een f (en later in het Nederlands een v).

Dat gold voor iedere p: de wet is even hard als willekeurig welke wet uit de natuurkunde, zo meende men. Het blijkt ook, zeker op de langere termijn, voor iedere taalverandering gelden. In ieder geval als je rekening houdt met het feit dat allerlei gebeurtenissen het beeld op het eerste gezicht kunnen verstoren. Behalve vel heeft het Nederlands ook pels, maar dat blijkt een woord te zijn dat we ná die verandering alsnog hebben geleend van het Latijn.

Als het allemaal zo regelmatig is, en zo exact, dan moet de computer het natuurlijk ook kunnen. Die voor de hand liggende gedachte heeft geleid tot het vakgebied van de computationele historische taalkunde. Gerhard Jäger schreef er een toegankelijke inleiding op voor een nieuw nummer van het tijdschrift Theoretical linguistics.

Er zijn allerlei technieken bruikbaar uit, bijvoorbeeld, de computationele biologie, zo laat Jäger zien. Zoals biologen op hun computer de evolutie van diersoorten kunnen nabootsen, zo kunnen taalkundigen woorden uit allerlei talen voeren aan hun laptop, die er dan een fraaie stamboom van maakt, en reconstrueert hoe de oertaal er ongeveer uit moet hebben gezien.

En het werkt, of in ieder geval een beetje. Dé testcase voor dit soort modellen vormen de Romaanse talen zelf, omdat we die talen vrij goed kennen evenals hun gezamelijke moeder: het Latijn. Als je de computer dus laat uitrekenen hoe die moeder heeft geklonken, hebben we redelijk vergelijkingsmateriaal. Voor de Germaanse talen kun je dat niet doen omdat er geen onafhankelijke informatie is over hoe de taal van de oude Germanen pakweg 2000 jaar geleden heeft geklonken.)

Jäger gaf zijn computer dus allerlei gegevens uit Romaanse talen, inclusief de talen die het niet tot standaardtaal hebben geschopt (zoals allerlei ‘dialecten’ in Italië die minstens evenveel van elkaar verschillen als sommige van het Spaans). Er kwam een stamboom uit die redelijk overeenkomt met wat mensen aan stambomen zouden maken en een reconstructie van de oertaal die redelijk lijkt op het Latijn:

Er gaat her en der wat mis met het einde van de woorden – dat is in te veel Romaanse talen afgesleten: naamvallen zijn verdwenen met hun uitgangen, klanken aan het eind van het woord hebben sowieso de neiging weg te vallen. Het systeem van Jäger doet eigenlijk niet aan woordstructuur en merkt dit niet op. In een enkel geval wordt een ander woord aangenomen (strada in plaats van viasentir in plaats van audire), wat iets te maken kan hebben met het feit dat de Romaanse talen niet uit het allersjiekste Latijn zijn ontstaan. Maar bij elkaar lijkt het me een vrij bevredigende eerste poging.

De historische taalkunde is misschien wel de tak van de taalwetenschap die zich het meest leent voor een benadering met computers, omdat ze in zekere zin de minst ingewikkelde is. Je hebt niet met mensen te doen, alleen met de taal die ze, meestal in geschrifte, hebben nagelaten. Er is in de afgelopen 200 jaar gebleken dat je door logisch redeneren over die taalresten een heel eind kunt komen in je reconstructie.

De historische taalkunde is een schoon spel, Precies waar computers goed in zijn.

[Bijdrage van Marc van Oostendorp; oorspronkelijk vanmorgen op de website Neerlandistiek.]

13 gedachtes over “Computer reconstrueert het Latijn

  1. jacob krekel

    “die er dan een fraaie stamboom van maakt, en reconstrueert hoe de oertaal er ongeveer uit moet hebben gezien”.
    Interessant artikel maar hier heb ik een vraag bij. Wat wordt bedoeld met “oertaal”? Is dat een van de talen die mensen – zeg – 100.000 jaar geleden hebben gesproken, of een hypothetische taal waar alle andere talen van afstammen? Het laatste is evolutionnair gezien zeer onwaarschijnlijk. De talige uitingen van de onmiddellijke voorgangers van homo sapiens moeten al aardig op taal hebben geleken, de sprong van grmpf umpf naar mensentaal is veel te groot om mogelijk te zijn. En die prototalen hadden tienduizenden jaren om verschillen op te bouwen, die ze vast wel benut hebben. Als de moderne mensentaal van een groot aantal prototalen afstamt, is die dus altijd divers geweest, en heeft er nooit één oertaal bestaan. Wanneer de overgang van prototaal naar taal voltooid was is uiteraard niet op een paar duizend jaar nauwkeurig vast te stellen.

    1. Willem Vermeer

      “Oertaal” is een meerduidig woord. Hier wordt het evident gebruikt in de betekenis ‘het laatste gemeenschappelijke voorstadium’, dus laten we zeggen het gesproken Latijn van de 2e of 3e eeuw. Vroeger was het normaal om bv. van “Oergermaans” (e.d.) te spreken. Ik betwijfel of dat tegenwoordig nog veel wordt gedaan, de meeste gangbare manier is “Proto-Germaans”. Zelf zei ik bij mijn onderwijs historische Slavische taalkunde altijd “Oerslavisch”, totdat Rob Beekes van de vakgroep Vergelijkende Taalwetenschap me een keer op de vingers tikte en opmerkte dat dat echt niet meer kon. Dat was ongeveer in 1990.

      “Oertaal” in de betekenis ‘de eerste taal van de mens’ of zo is hier duidelijk niet aan de orde.

        1. Willem Vermeer

          Ja inderdaad. 🙂

          In het Engels heet die menselijke oertaal tegenwoordig “Proto-Human”. Ik heb de indruk dat de meeste taalkundigen weinig optimistisch zijn over de vraag of daar met de gangbare middelen iets van te reconstrueren is.

          Je hebt wel mensen die verbanden reconstrueren die boven het Proto-Indo-Europees uitgaan. Het Oeralisch (dwz. de familie waar het Fins en het Hongaars in zitten, en nog veel meer moois) is van oudsher favoriet. Maar sommigen banjeren vervolgens heel Siberië door totdat ze bij de Inuït zitten voorheen bekend als Eskimo’s. En ook dat is niet nieuw. Een eeuw geleden werkte onze C.C. Uhlenbeck daaraan en het is nooit echt van de agenda verdwenen. Men noemt die grote totaalfamilie vaak “Nostratisch”.

          Toch ben je met het Nostratisch nog best ver weg van het Proto-Human.

          Ergens op het traject van Proto-Indo-Europees naar Proto-Human lijkt de overgang tussen echte en nepwetenschap te zitten, maar de specialisten verschillen luidruchtig van mening over de vraag waar die grens zit. Het is trouwens maar een handjevol mensen, waarvan de meesten, denk ik, in Moskou zitten of daar zijn opgeleid.

          We dwalen af.

          1. Ben Spaans

            Nou heb ik een tijd terug wel begrepen dat niet alle ‘Eskimo’s’ zich als ‘Inuit’ wensen te beschouwen die eigenlijk beperkt zijn tot Noordoost Canada en Groenland. Verder naar het westen en in Alaska heeft de inheemse poolbevolking er geen moeite mee zich ‘Eskimo’ te noemen.

            Het is maar dat u het weet…

            1. Willem Vermeer

              Dankdank. Ik ben op dat punt een erg onbeschreven blad en had geen zin om het op te zoeken. Shame on me.

    2. FrankB

      “en heeft er nooit één oertaal bestaan”
      Dit is een voorbarige conclusie. Want DNA-onderzoek suggereert dat de menselijke populatie op een bepaald punt in de geschiedenis uit, in het extreemste geval, slechts uit 2000 individuen. Het is dan heel aannemelijk dat zij allemaal dezelfde (oer)taal spraken.
      We weten het weer eens niet.

  2. Dirk

    “In een enkel geval wordt een ander woord aangenomen (strada in plaats van via, sentir in plaats van audire), wat iets te maken kan hebben met het feit dat de Romaanse talen niet uit het allersjiekste Latijn zijn ontstaan. ”

    Of met het feit dat betekenissen veranderen. Denk aan ons woord onnozel.

    1. Frans

      Of die computer pikt gewoon woorden uit bestaande talen op. Venir en beber zijn gewoon Spaanse woorden. Estrada betekent weg en sentir is ook Spaans, ook al betekent dat voelen i.p.v. horen.

    1. Robbert

      Daar zijn legio theorieen over.
      Zie bv. https://en.wikipedia.org/wiki/Origin_of_language.
      Sommigen menen (en dat spreekt mij het meest aan) dat taal en spraak evolueerden uit een “animal communications system” van onze voorouders. Anderen zien meer in een aparte en discontinue onstaanswijze.
      Losse woorden zouden tot reeksen woorden leiden met later een begin van syntaxis, langzamerhand (bv. een paar miljoen jaar) of veel sneller (bv. in 10.000 jr).
      Van Australopithecus naar Homo sapiens, bij wie taal en spraak in een stroomversnelling kwamen.
      Boeiend maar zeer speculatief en nog ver verwijderd van een Proto-Human taal of het Proto-Indo-Europees.

Reacties zijn gesloten.