De Zevende Brief is echt van Plato (maar niet helemaal) (6)

[Dit is het zesde van acht door Marco Folpmers geschreven blogjes over de mogelijkheid met artificiële intelligentie Plato’s Zevende Brief te analyseren. Het eerste was hier. Hoe pakt een onderzoeker dat aan?]

Een publicatie van de Amerikaanse Harvard-universiteit heeft in 2021 nieuw licht geworpen op de auteursvraag van de Zevende Brief van Plato. Het betreft de scriptie van Jordan Bliss Perry voor “the departments of computer science and the classics” van Harvard.noot J.B. Perry, Examining the Authenticity of Plato’s Epistle VII through Deep Learning (2021; Bachelor’s thesis, Harvard College). Over deze Perry is verder weinig te vinden.

Weliswaar is dit geen officiële publicatie in een journal met peer-review, maar van de andere kant zien de publicatie an sich en de begeleiders er betrouwbaar uit. Ik zal nog terugkomen op de verschijningsvorm van deze studie.

In zijn studie beschrijft Perry op hoofdlijnen de status quaestionis van het auteurschap van Plato’s Zevende Brief, alsmede de stylometrische methode en innovatie met behulp van natuurlijke taalmodellen en kunstmatige intelligentie. Dan gaat Perry aan de slag. Hij verzamelt de corpora van zeven auteurs (Plato plus zes in een eerder blogje genoemde tijdgenoten) en bereidt de teksten voor. Hij zet de boven uitgelegde stappen:

hij splitst de samples in ontwikkel-, validatie- en testsets;
hij verwijdert de “belangrijke” woorden;
hij verdeelt de teksten in tekstbrokken van honderd woorden (soms langer om de zin af te maken).

Hier zijn de tekstbrokken waarmee Perry werkt.

Dataset	Aantal observaties
Training	3573
Validatie	447
Test	447
Onecht platoons	496
Zevende Brief	73

Perry legt kenmerken per tekstonderdeel vast op basis van lemma en morfologie. Vervolgens ontwikkelt hij een multinomiaal model waarbij hij met een neuraal netwerk de auteur voorspelt. Hij rapporteert dan de confusion matrix voor de testset. Deze [7 x 7] confusion matrix ziet uit als in de onderstaande tabel.

Van \ toegeschreven aan	Plato	Xenophon	Demosthenes	Thucydides	Isocrates	Lysias	Aeschines
Plato	430	11	0	2	0	4	0
Xenophon	21	250	3	1	0	2	1
Demosthenes	3	4	221	0	3	11	11
Thucydides	0	4	0	118	0	0	0
Isocrates	1	0	5	1	86	2	2
Lysias	1	3	13	0	1	30	1
Aeschines	1	2	14	0	0	2	18

Wat onmiddellijk opvalt uit deze confusion matrix is dat deze een sterke lading heeft op de hoofddiagonaal (vet weergegeven). Van de 447 tekstbrokstukken van Plato in de testset zijn er 430 correct toegeschreven aan Plato. Ook de andere, min of meer contemporaine, auteurs scoren behoorlijk hoog, zij het dat onder de Atheense redenaars (Demosthenes, Isocrates, Lysias en Aeschines) vaker verwarring optreedt. Desalniettemin zien de confusion matrix en de afgeleide statistieken er erg sterk uit.

Als we deze confusion matrix “opklappen” over de rijen en kolommen zodat een [2 x 2] matrix ontstaat voor wel/niet Plato, dan kunnen we de eerder gedefinieerde begrippen (accuratesse, sensitiviteit en specificiteit) toepassen. Dat levert het volgende beeld op: accuratesse: 97%, sensitiviteit: 96%, specificiteit: 97%. Conform algemeen gehanteerde maatsteven uitstekende scores!

Het ziet er dus op het eerste gezicht naar uit dat Perry een robuuste machine heeft ontwikkeld voor auteursattributie aan Plato.

Hoe pakt dit nu uit voor de Zevende Brief? Geheel methodologisch correct heeft Perry deze achtergehouden tot zover.

[Dit was het zesde van acht door Marco Folpmers geschreven blogjes over de mogelijkheid met artificiële intelligentie Plato’s Zevende Brief te analyseren. Wordt vervolgd. Dank je wel Marco!]