De Zevende Brief is echt van Plato (maar niet helemaal) (5)

[Dit is het vijfde van acht door Marco Folpmers geschreven blogjes over de mogelijkheid met artificiële intelligentie de Zevende Brief van Plato te analyseren. Het eerste was hier. We komen ter zake.]

Bij de meest recente inzichten met betrekking tot de attributie van de Zevende Brief van Plato zullen we zien dat we te maken hebben met wat we in het vorige blogje een multinomiale classificatie noemden. Het model van Jordan Bliss Perry alloceert een tekstonderdeel aan Plato of aan een andere auteur uit een gesloten lijstje van zes tijdgenoten: Xenophon, Thucydides, Demosthenes, Lysias, Isocrates en Aeschines.

Taalmodellen en kunstmatige intelligentie

De meest recente ontwikkeling is dat statistische modellen, zoals banken die gebruiken, ook op natuurlijke talen toegepast kunnen worden. De data bestaan dan uit de corpora van diverse auteurs en met statistische modellen beogen onderzoekers de omstreden tekst toe te schrijven aan een specifieke auteur.

Taalmodellen kunnen kenmerken uit de tekst distilleren die vervolgens dienen als input-variabelen in een statistisch model om het auteurschap te verklaren. Deze kenmerken worden toegepast op brokstukken van tekst. In de Plato-studie van Jordan Bliss Perry noot J.B. Perry, Examining the Authenticity of Plato’s Epistle VII through Deep Learning (2021; Bachelor’s thesis, Harvard College). gaat het om brokstukken van honderd woorden. Als na honderd woorden de zin nog niet af is, komen er meer woorden bij het brokstuk totdat de zin af is.

Tevens worden meer voorbereidende taken uitgevoerd, zoals het verwijden van “belangrijke termen”. Het is de bedoeling dat het taalmodel onbewuste stijlkenmerken oppikt en de attributie niet modelleert op basis van specifieke termen die erg bij één auteur horen. Denk aan specifieke omstandigheden rond de Peloponnesische Oorlog in het werk van Thucydides. Er bestaan standaard methodes (aan de hand van de “tf-idf” statistiek) om de tekst te schonen voor “belangrijke woorden”.

De kenmerken die de tekstbrokstukken hebben, relateren in de meest recente toepassingen niet alleen aan kenmerken per lemma maar ook aan morfologische kenmerken. Als een auteur vaak het lemma voor “zien” gebruikt, kan dat door middel van lemmatisatie gedetecteerd worden, zelfs wanneer (zoals in het Grieks) het werkwoord voor zien onregelmatig is en diverse stammen heeft. Dit betekent dus dat bij de voorbereidende stappen elk woord (vervoegd naamwoord of verbogen werkwoord) herleid dient te worden naar zijn lemma (dus de term zoals je opzoekt in het woordenboek).

Maar morfologische kenmerken kunnen ook interessant zijn en deze zijn ook door Wincenty Lutosławski en zijn navolgers al vaak geprobeerd. Een voorkeur van een specifieke auteur voor specifieke woordeindes kan bijvoorbeeld worden opgepikt. Dit is potentieel van belang bij een taal als het Grieks, waarbij de hoge mate van vervoeging van het Griekse werkwoord (tijd, wijs, persoon, getal en actief/medium/passief) wel eens wordt aangeduid als een “veelkoppig monster”.

Er is inmiddels standaardsoftware beschikbaar die deze voorbereidende functies kan uitvoeren met betrekking tot het aanleggen van kenmerken rond lemma en morfologie. Omdat elke observatie (een brokstuk van honderd woorden) daardoor heel veel kenmerken kan krijgen, lenen toepassingen op basis van “machine learning” zich er beter toe om het model te ontwikkelen dan traditionele statistiek. En daarmee komen we het domein van de kunstmatige intelligentie binnen.

Neurale netwerken

Een voorbeeld van een machine-learning-model om een verband te vinden tussen input-variabelen (in ons voorbeeld de kenmerken van brokstukken van honderd woorden) en de auteur is een neuraal netwerk. Kenmerkend voor dit soort technieken is dat de procedure om van input-variabelen tot een voorspelling te komen onnavolgbaar is. De controleerbaarheid, die voor de traditionele statistische modellen zo bepalend is, is weg bij het toepassen van machine-learning-modellen. Het goede nieuws is dat de modellen nog steeds beoordeeld kunnen worden en dat de boven besproken confusion matrix daarin centraal staat.

Het ontwikkelen van een neuraal netwerk is trouwens dezer dagen niet meer zo moeilijk. Statistische software-omgevingen (zoals Python) bevatten standaardbibliotheken met deze toepassingen, ook binnen de context van natuurlijke taalmodellen. Deze software helpt ook met het voorbereiden van de data, zoals het vaststellen van het lemma, het maken van de brokstukken, het verzamelen van de morfologische kenmerken en het boven beschreven splitsen van de data. Voor classici is met name de Python-bibliotheek “cltk” interessant: “classical language toolkit”.

[Dit was het vijfde van acht door Marco Folpmers geschreven blogjes over de mogelijkheid met artificiële intelligentie Plato’s Zevende Brief te analyseren. Wordt vervolgd. Dank je wel Marco!]