Digitale historische taalkunde

Stamboom van de Indo-Europese talen (klik=groot)

Ik heb wel vaker geblogd over de Lachmannmethode, waarbij classici de fouten in middeleeuwse handschriften gebruiken om te zien welke manuscript van welk manuscript is afgeleid, eventueel verloren handschriften te reconstrueren en zo het origineel zo dicht mogelijk te benaderen. Als van de bladeren van een boom werk je via de takken terug naar de stam; zo werkt de classicus van de concreet voorhanden zijnde data terug naar verloren informatie. Dat de methode correct is, weten we doordat in de Egyptische woestijn papyri zijn teruggevonden met daarop teksten zoals ze volgens de reconstructie moesten zijn.

Dit idee, dat je aan de hand van wat je in het heden vindt terug kunt redeneren naar wat er vroeger moet zijn geweest, staat bekend als de fylogenetische stamboom. Die term komt uit de biologie: van de huidige diersoorten kunnen we terugredeneren naar uitgestorven voorouder-diersoorten. Ik heb me ooit door een bioloog laten vertellen dat de methode ook hier correct is gebleken: sommige vormen waarvan men had beredeneerd dat ze bestaan moesten hebben, zijn in fossiele vorm teruggevonden.

Taalkunde

Het stamboommodel wordt ook wel gehanteerd in de historische taalkunde: aan de hand van de huidige Germaanse talen (Engels, Fries, Nederlands, Duits…) kunnen linguïsten oudere Germaanse talen reconstrueren. Dat de methode klopt, wordt bewezen door de Romaanse talen. Je kunt het Italiaans, Spaans, Portugees, Sardijns, Frans en Roemeens benutten om te kijken welke taal de gedeelde voorouder was en dan krijg je iets dat verdraaid veel lijkt op het Latijn. De methode is dan geijkt.

De vergelijking met andere (deels gereconstrueerde) talen helpt om nog verder terug te gaan. De reconstructie van het Proto-Indo-Europees, een oertaal die in het vierde millennium v.Chr. op de westelijke Centraal-Euraziatische steppe gesproken moet zijn geweest, is een van de grootste wetenschappelijke prestaties van alle tijden.

Taalkunde is geen “zachte” wetenschap. De conclusies zijn robuust. De wijze waarop talen door de eeuwen heen veranderden, is gedocumenteerd in vele honderden van de circa zesduizend talen in de wereld. Daarbij gaat het niet alleen om woordenschatten, maar ook om de klanken en om grammatica’s. Een online-inventaris is WALS. Dankzij deze grote dataverzameling zijn de wegen waarlangs talen veranderen, goed bekend, en ook kennen we enkele algemene regels waaraan talen moeten voldoen. Een voorbeeld is dat als een taal een /g/ kent, er ook altijd een /d/ is, en dat als een taal een /d/ heeft, er ook een /b/ is. Als we een taal reconstrueren met wel een /g/ maar geen /b/, is er vrijwel zeker iets mis. Ook kennen we van vrij veel talen de specifieke, eigen veranderingen.

Omdat enerzijds de woordenschatten, grammatica’s en klankleer en anderzijds de regels waarmee talen veranderen bekend zijn, zou je het proces van taalreconstructie kunnen automatiseren. Dat heet computational historical linguistics 0fwel digitale historische taalkunde. En dat is iets waar taalkundigen de laatste tien jaar vooruitgang mee boeken.

Hier is een artikel over digitale historische taalkunde waar ik al een tijdje op zit te broeden. De auteur, Gerhard Jäger, zoekt naar een manier om de computer het werk te laten doen en gebruikt daarbij een verzameling van een stuk of vijftig romaanse talen en dialecten. Die hebben, zoals gezegd, het voordeel dat we weten dat ze afstammen van het Latijn. We weten dus waar het op moet lijken en kunnen het resultaat controleren. Jäger wil geautomatiseerd kijken of woorden een gedeelde voorouder hebben en die reconstrueren.

De toekomst

Onderzoek als dat van Jäger is pas een begin. Hij houdt zich nauwelijks bezig met grammatica en klankleer. Het zou natuurlijk geweldig zijn als dit van de grond kwam en we andere verloren talen leerden reconstrueren. Welke talen spraken de Germanen? Wat waren de eerste fases van de Finno-Oegrische talen? En wat ging er vooraf aan het Hebreeuws en Aramees?

Er zijn natuurlijk problemen. Eén daarvan is dat talen zich niet alleen ontwikkelen als een steeds verder uiteen waaierende boom. Twee talen naast elkaar zullen elkaar beïnvloeden, wat leidt tot Sprachbünde en in extreme vorm kan leiden tot het ontstaan van pidgins en creolen. Het Jiddisch combineert Semitische woorden met een Germaanse grammatica en het Papiaments combineert elementen uit een half dozijn talen. Je kunt dus niet zomaar de computer aan het werk zetten om vanuit de bestaande talen terug te redeneren naar verloren oertalen.

IJking en verfijning

Hoe controleer je dus een uitkomst? Waaraan ijk je? Het liefst zou je het linguïstische equivalent hebben van papyri of fossielen: glimpen informatie uit het verleden die bevestigen dat je goed zit. Die zijn er echter zelden en een norm als “je moet er wel normaal mee kunnen communiceren” is weer afhankelijk van de vraag wat normaal is.

Het is ook belangrijk dat bekend is hoe oud taaluitingen zijn. Daarmee valt het resultaat te verfijnen. Voor een reconstructie van het oude Germaans beschikken we niet alleen over goed gedocumenteerde hedendaagse afstammelingen van die oude talen, maar ook over een flink oude vorm, het Gotisch. Het ligt in de rede die eveneens goed gedocumenteerde vorm op een of andere manier zwaarder te laten wegen, net zoals de Oud-Nederlandse woorden die her en der in Vroeg-Middeleeuwse teksten opduiken.

Ook wordt wel gekeken naar de onderlinge uitwisseling tussen talen. Zo bevat het Fins nogal wat oeroude Germaanse woorden, die in een zeer vroeg stadium moeten zijn overgenomen.

[Met dank aan Nicoline van der Sijs. In de reeks “Methode op Maandag” (MoM) probeer ik uit te leggen waarom de oudheidkundige wetenschappen wetenschappen zijn. De stukjes verschijnen niet elke maandag en ook niet uitsluitend op maandag, maar de reeks heet nou eenmaal zo.]

Zelfde tijdvak

Hoe dateer ik een papyrus?
juli 15, 2019

Nubië in Assen
november 18, 2018

Marmoulak (1)
juli 2, 2012

Gerelateerd

Deel dit:

12 gedachtes over “Digitale historische taalkunde”

Mooi blog!

Geïnteresseerde groet,

maart 22, 2021 om 8:51 am

Geweldig stuk.

maart 22, 2021 om 10:23 am

In de stamboom mis ik het Nedersaksisch (of Nederduits, als men daar de voorkeur aan geeft), dat eveneens rechtstreeks afstamt van het West-Germaans. Samen met het Fries, Nederlands en Duits (in het noorden en oosten van Nedersaksen) heb je dan een Sprachbund. Dat scheelt een eind reizen.
Misschien kunnen we tegenwoordig zelfs Surinaams-Javaans (oa Hoogezand) en Papiamentu (Delfzijl) meerekenen.
Groningen is een interessante provincie, maar dat wist men natuurlijk al.

“Als van de bladeren van een boom werk je via de takken terug naar de stam”
In de evolutietheorie is deze beeldspraak vervangen door struikgewas. Dus ik ben benieuwd of zoiets ook zal gebeuren mbt The Origin of Languages. Juist het Nedersaksisch zou dat kunnen suggereren, omdat de beoefenaars ervan tegenwoordig bijna allemaal tweetalig zijn.

“sommige vormen waarvan men had beredeneerd dat ze bestaan moesten hebben, zijn in fossiele vorm teruggevonden.”
Zie Neil Shubin en de Tiktaalik op Groenland.

Heel interessant blogstuk, inderdaad.

maart 22, 2021 om 10:40 am

Ha, Het schaap van Schleicher! Ik heb de ‘kaart’ meteen laten printen. Wat een mooi overzicht, en wij kunnen het nu riant in A3 bekijken.
De vraag dringt zich op waar Proto- Indo-Europees en Tochaars vanaf stammen, maar dan kom je wel in heel diep en schimmig verleden terecht. En dat brengt ons naar het Baskisch: is dat werkelijk een overblijfsel van voor de komst van de Indo-Europeanen?
En waar komt Fins eigenlijk vandaan?
Hoe meer vragen hoe beter. Hulde voor de blog die ze oproept!

maart 22, 2021 om 12:48 pm

Terechte opmerking wat het Nedersaksisch betreft, maar ook het Occitaans, het Corsicaans en Catalaans ontbreken…. :p

maart 22, 2021 om 1:13 pm

Joost van den Buijs

Occitaans en Corsicaans niet nee, maar ik denk dat Modern Catalan toch echt wel Catalaans is… 🙂

Laden...

maart 22, 2021 om 5:29 pm

Beetje gecentreerd op West-Europa maar een mooi plaatje. Wat is de betekenis van de blauwe vs de rode kleur?

maart 22, 2021 om 1:29 pm

Dirk Zwysen

Ik zou zeggen: rood = verzamelnamen / blauw = aparte taal. Die laatsten kenden natuurlijk ook elk hun varianten. De concepten standaardtaal en dialect zijn niet zo zinvol om historische talen te beschrijven, tenzij er een geletterde elite was die een norm aangaf.

Laden...

maart 22, 2021 om 4:12 pm
Jona Lendering

Ik geloof reconstructie en gedocumenteerd.

Laden...

maart 23, 2021 om 9:00 am
1. Dirk Zwysen
  
  Kan ook, maar dat verklaart ‘Greek’, ‘Continental’ of ‘Insular’ niet echt.
  
  Laden...
  
  maart 23, 2021 om 6:05 pm

Boeiende blog, vooral wat de methodiek betreft en de toekomstperspectieven ervan met de computer via algoritmen.

Twee opmerkingen:

1. Vanaf wanneer kunnen we zeggen dat een taal nog bestaat? Als voorbeeld noem ik het Sorbisch, een Slavische taal waarvan niet exact bekend is hoeveel moedertaalsprekers van deze taal er nog zijn. Deze taal staat op uitsterven of is misschien al uitgestorven, mede door onderdrukking van de overheden.
Zie: https://www.dbnl.org/tekst/_nee003200201_01/_nee003200201_01_0087.php

2. Omdat het op deze stamboomkaart gaat over de talen afstammende van het Proto-Indo-Europees, begrijp ik natuurlijk dat de Fins-Oegrische talen er niet op staan. Maar het is niet helemal juist voor de moderne Baltische staten. Het Ests (Estisch) is een Oegrische taal met natuurlijk enige Slavische bijmenging.
De Esten verstaan goed de Finnen, Omgekeerd is niet het geval. Men denkt dat het mogelijk komt doordat de Esten vaak naar de Finse televisie kijken.

maart 22, 2021 om 5:56 pm

Het is natuurlijk altijd leuk om in zo’n schema naar missende talen te kijken 🙂 Mijn kandidaat zou zijn Koerdisch (met z’n varianten); er zijn ook in Nederland nogal wat Koerden; en voor zover ik weet is de taal verwant aan het Perzisch. Wat is de bron van het dendrogram?

maart 23, 2021 om 7:42 am

Reacties zijn gesloten.