De Wet van Zipf

Als je een taal wilt leren, zou het dan niet het makkelijkst zijn om eerst de honderd meest voorkomende woorden te leren?  Het lijkt logisch, maar daarin kun je je behoorlijk vergissen. Deze woorden hebben namelijk vaak op zich weinig betekenis. In het Nederlands vinden we hier lidwoorden, voorzetsels, voegwoorden (zoals ‘en’), en vormen van het werkwoord ‘zijn’.

De website SUBTLEX heeft de meest gebruikte woorden uit Nederlandse filmondertitels onderzocht. Nu is er een verschil tussen woorden en lemmata. De woorden ‘is’ en ’ben’ zijn beide vormen van het lemma ‘zijn’. Alle vormen van een lemma staan in deze lijst apart opgesomd. Het eerste zelfstandig naamwoord vinden we op plaats 102 en is ‘man’.

Functiewoorden en inhoudswoorden

Hetzelfde fenomeen geldt vermoedelijk voor elke taal ter wereld: zogenaamde functiewoorden komen het vaakst voor, inhoudswoorden komen veel minder vaak voor. In levende talen is de categorie van inhoudswoorden onbeperkt. Inhoudswoorden kunnen altijd worden toegevoegd. Functiewoorden daarentegen liggen min of meer vast, nieuwe ontstaan niet zo gemakkelijk.

De laatste drie zinnen van de vorige alinea zonder inhoudswoorden ziet er zo uit:

Hetzelfde vermoedelijk voor elke ter: zogenaamde het, veel. In is de van: kunnen altijd worden. daarentegen min of meer, niet zo.

En dezelfde zonder functiewoorden:

fenomeen geldt taal wereld: functiewoorden komen vaakst voor, inhoudswoorden komen minder vaak voor. levende talen categorie inhoudswoorden onbeperkt: Inhoudswoorden toegevoegd. Functiewoorden liggen vast, nieuwe ontstaan gemakkelijk.

Het is niet altijd eenvoudig functie- van inhoudswoorden te onderscheiden. Het hangt een beetje van de definitie af. In ieder geval is duidelijk: de inhoud van een zin zonder functiewoorden kun je nog min of meer raden, zonder inhoudswoorden wordt het onzin. Alleen het weglaten van de negatie maakt het begrijpen van zinnen zonder functiewoorden lastiger.

Wet van Zipf

De Amerikaanse taalkundige George Zipf herkende in dit fenomeen een wet: het meest frequente woord in een taal komt twee keer zo vaak voor als het volgende meest frequente woord, drie keer zo vaak als het woord op de derde plaats, enzovoort. Met andere woorden, de plaats van een woord vermenigvuldigd met de frequentie is constant. In een grafiek krijg je een curve die lijkt op een hockeystick.

De Wet van Zipf getest

Om dit voor Latijn te testen, heb je eerst een corpus nodig. De Library of Latin Texts van Brepols bevat veel teksten en je kan de frequentie per woord in verschillende perioden bepalen, maar de woorden zijn niet gelemmatiseerd. Dit betekent dat alle vormen van bijvoorbeeld esse (‘zijn’) afzonderlijk worden geteld.

Al in de jaren dertig van de vorige eeuw wilde Paul Diederich weten welke lemmata het vaakst voorkomen in het Latijn. Daartoe heeft hij zelf een corpus samengesteld uit anthologieën, bestaande uit bijna 125.000 woorden uit de klassieke periode. Hij kopieerde de teksten op papier met daarop vakjes, elk woord in een eigen vakje. Vervolgens liet hij de papiertjes per vakje uitknippen, zodat hij voor elk woord een papiertje had. Hij sorteerde ze vervolgens op lemma. Sommige homoniemen (woorden met dezelfde vorm maar een totaal andere betekenis) herkende hij al bij het kopiëren en hij schreef er het juiste lemma bij. Van andere homoniemen bleef onduidelijk welke betekenis ze hadden, maar dat zijn er zo weinig dat het voor de uitkomst niet veel uitmaakt.

Diederich kwam op meer dan 4000 lemmata. Deze leveren precies de verwachte hockeystick-vorm in frequentie.

(click=groot)

Als we de eerste vijftig lemmata van dichterbij bekijken, is de vorm niet meer zo duidelijk zichtbaar. Maar we kunnen beter zien om welke lemmata het gaat.

(click=groot)

Zoals in het Nederlands, en waarschijnlijk in alle andere talen, zijn de meest voorkomende woorden uitsluitend functiewoorden: het relativum qui, quae, quod (‘die’), het voegwoord et (‘en’), het werkwoord esse (‘zijn’), de ontkenning non (‘niet’), het voorzetsel in (‘in’) enz. Het eerste zelfstandig naamwoord komt pas op de vierentwintigste plaats: res (‘ding’). Dit woord heeft echter ook inhoudelijk niet veel te zeggen. Op de tweeënveertigste plaats vinden we de volgende: deus (‘God’).

Nog een test

Het Laboratoire d’Analyse Statistique des Langues Anciennes in Luik heeft ook een frequentielijst gemaakt. De website Stilus.nl heeft hiervan gebruik gemaakt en daar zien we weer iets soortgelijks: als eerste zelfstandig naamwoord res op plaats tweeëndertig en vervolgens animus op plaats veertig. Het hangt van het corpus af in welke volgorde de lemmata precies komen te staan: als er veel christelijke teksten in zitten, zal deus frequent zijn. Als er veel gedichten in zitten, komen er meer poëtische woorden.

Aan een afgesloten corpus worden geen nieuwe woorden toegevoegd. Dit geldt voor het corpus van de Thesaurus linguae Latinae: het houdt rekening met alle Latijnse teksten tot ongeveer 600 na Christus. Nieuwe woorden kunnen alleen worden toegevoegd wanneer teksten worden herontdekt, maar dit gebeurt zelden. Ook hier zien we hetzelfde verschijnsel: enkele woorden, vooral de eerdergenoemde functiewoorden, komen extreem vaak voor, vele andere, vooral inhoudswoorden, veel minder vaak. Zo zijn er honderden lemmata die maar een paar keer voorkomen. Zij komen tot dusver in geen enkel woordenboek voor, behalve in de TLL: daar krijgen vele lemmata voor het eerst een vermelding.

Het heeft dus weinig zin om alleen de meest voorkomende woorden te leren, aangezien het hoofdzakelijk om functiewoorden gaat. De vraag is, welke moet je dan leren? Het hangt sterk van de inhoud van de tekst af welke woorden je moet kennen. Als je Caesar wilt lezen zou je andere woorden moeten leren dan als je Ovidius of Livius wilt lezen, en weer andere als je christelijke teksten wilt lezen.

[Opnieuw een fijne bijdrage van Josine Schrickx. Dank je wel Josine!

Meer artikelen over datgene wat de oudheidkundige disciplines maakt tot wetenschappen, vindt u hier.]

Deel dit:

4 gedachtes over “De Wet van Zipf

  1. Dirk Zwysen

    Leuke bijdrage! Als het corpus ondertitelde films is, zal je ook vertekening krijgen in de frequentie van inhoudswoorden. Ik gok dat woorden gerelateerd aan seks en geweld verdacht hoog scoren.

  2. Leuk maar niet onverwacht. Indertijd was er een woordenlijst bij Homeros geordend op frequentie. In denk achteraf dat die alleen de inhoudswoorden bevatte, man en schip hoorden b.v. bij de meest frequente woorden. Maar als je die geleerd had, dan was het lezen van Homeros nauwelijks nog een probleem. Voor het leren lezen van een taal is dus het leren van de meest frequente inhoudswoorden heel nuttig, voor het leren spreken helpt dat nauwelijks. De beste methode daarvoor is: het oefenen van het spreken, en dan liefst volgens de taalgebruikssituaties van het ERK, en niks grammatica.

  3. Huibert Schijf

    Leuk zo’n toepassing van de Wet van Zipf. Wel van gehoord, maar nooit een toepassing gezien.

Reacties zijn gesloten.