De Wet van Zipf

Als je een taal wilt leren, zou het dan niet het makkelijkst zijn om eerst de honderd meest voorkomende woorden te leren?  Het lijkt logisch, maar daarin kun je je behoorlijk vergissen. Deze woorden hebben namelijk vaak op zich weinig betekenis. In het Nederlands vinden we hier lidwoorden, voorzetsels, voegwoorden (zoals ‘en’), en vormen van het werkwoord ‘zijn’.

De website SUBTLEX heeft de meest gebruikte woorden uit Nederlandse filmondertitels onderzocht. Nu is er een verschil tussen woorden en lemmata. De woorden ‘is’ en ’ben’ zijn beide vormen van het lemma ‘zijn’. Alle vormen van een lemma staan in deze lijst apart opgesomd. Het eerste zelfstandig naamwoord vinden we op plaats 102 en is ‘man’.

Lees verder “De Wet van Zipf”

MoM | Thesaurus linguae Latinae

Kasten vol dozen met systeemkaarten

De Thesaurus linguae Latinae is een wetenschappelijk woordenboek van het Latijn. Nu zou je kunnen denken: er bestaan toch al woordenboeken Latijn? Inderdaad, het meest bekend is voor Nederlanders het woordenboek van Pinkster, voor Engelsen de Oxford Latin Dictionary, en zo heeft elk taalgebied wel zijn Latijnwoordenboek.

Nu is er een aantal problemen met deze woordenboeken. Ten eerste zijn ze gemaakt op basis van maar een beperkt aantal teksten, meestal bestaand uit werken van  “grote” auteurs als Cicero, Caesar, Vergilius, Ovidius. Ten tweede bouwen ze meestal op elkaar op: zo is Pinkster oorspronkelijk een bewerking van het Duitse woordenboek van Pons, dat weer een bewerking is van Taschen-Heinichen. Op deze manier krijgen we steeds dezelfde lemmata met dezelfde betekenissen, en soms zelfs dezelfde fouten.

Lees verder “MoM | Thesaurus linguae Latinae”