De stylometrist gemeten

Een project als Stylene is vrij simpel belachelijk te maken. Je hoeft alleen maar de definitie te citeren die de Universiteit Antwerpen zelf geeft.

Doel van het project is de implementatie van een robuust, modulair stysteem [sic] voor stylometrie- en leesbaarheidsonderzoek op basis van bestaande technieken voor automatische tekstanalyse en zelflerende technieken, en de ontwikkeling van een web service [sic] die onderzoekers in de HSS toelaat teksten te analyseren met behulp van het systeem. Op die manier wil het project recente vooruitgang op het gebied van het computationeel modelleren van stijl en leesbaarheid beschikbaar maken voor onderzoek in de sociale en geesteswetenschappen.

Dat de onderzoekers met dit academisch holleklap hun werk onvoldoende recht doen, bleek toen ik met Stylene begon. Je voert een tekst in (hier), de computer toetst deze aan de hand van een aantal criteria en doet vervolgens uitspraken over de auteur.

Dit is belangrijk werk. Als de politie kan vaststellen of de auteur van een dreigbrief een man of een vrouw is, valt de helft van de verdachten af. Iets minder praktisch maar wel leuk: van de Historia Augusta kon, door het meten van stijlkenmerken, worden vastgesteld dat ze maar één auteur had – en niet het zestal dat er ogenschijnlijk verantwoordelijk voor is. Onlangs werd J.K. Rowling op deze wijze ontmaskerd als de schrijfster van een detectiveroman.

Ik heb voor de grap drie van mijn eigen blogstukjes (non-fictie) ingevoerd. In alle drie gevallen werd vastgesteld dat de tekst meer mannelijke dan vrouwelijke eigenschappen had. Zo gebruiken mannen vaker “jij” terwijl vrouwen vaker “ik” gebruiken; vrouwen gebruiken meer woorden die verwijzen naar zingeving, vrije tijd en thuis-zijn, terwijl mannen positievere emoties uitdrukken. Je kunt je tijdens het schrijven moeilijk anders voordoen dan je bent – al sluit ik niet uit dat je je erop kunt trainen – en dus is het niet zo vreemd dat mijn tekst als mannelijk werd geïdentificeerd.

Ook werd geprobeerd de tekst naar genre te duiden. Ze golden meer als non-fictie of als sprookje dan als poëzie, literatuur of wetgeving. Tot slot werd gemeten in welke mate mijn tekst leek op bekende schrijvers. Drie keer leek mijn proza op Jeroen Brouwers. Ik weet niet wat het betekent dat ik nog nooit iets van hem heb gelezen.

Ik heb vervolgens een stukje van mijn goede vriend Richard Kroes door de mangel gehaald: man (correct), schrijft poëtisch en literair (het was non-fictie) en vergelijkbaar met, opnieuw, Jeroen Brouwers. Een stukje non-fictie van een goede vriendin, Mieke Bleeker, werd herkend als geschreven door een man, als poëtisch of literair en als lijkend op, alwéér, Brouwers. Non-fictie van Sigrid van Roode werd geïdentificeerd als geschreven door een man die op alle assen hoog scoorde behalve non-fictie. Ook Sigrid schrijft als Brouwers.

Daarna besloot ik wat teksten in te voeren die behoorden tot de vijf genres. De Gedragscode voor de Journalistiek was mannelijker dan de voorgaande teksten en scoorde, zoals beoogd, als wetstekst hoog. En alweer: het lijkt het meest op Jeroen Brouwers.

Ik voerde de Indische Waterlelies in, het sprookje dat koningin Fabiola voor de Efteling heeft geschreven. Voor het eerst werd een vrouwelijk auteur correct geïdentificeerd; de tekst gold als poëzie, als literatuur en – inderdaad – als sprookje. Het gold niet als wet of non-fictie. Goed geïdentificeerd dus. Voor het eerst ook schreef iemand niet als Brouwers: de koningin schreef als Remco Campert.

Als literaire tekst voerde ik Bomans’ Brandweercommandant in. De schrijver was man noch vrouw – wat ik beschouw als een compliment aan Godfried Bomans – en het geschrevene werd correct geïdentificeerd als literatuur. De nieuwe Bomans heet overigens Marc De Bel.

Tijd om een  stuk non-fictie te toetsen: de laatste column van Marcel Hulspas. Macho-taalgebruik, hartstikke non-fictie en schrijvend als Remco Campert. Hulspas zal er geen bezwaar tegen hebben.

Dan een gedicht: iets van Roland Holst maar, want Vondel is te archaïsch. Roland Holst is tenminste een Erkende Dichter. Een man, zegt Stylene, maar de identificatie met poëzie wilde niet echt lukken. Als herkansing toetste ik De Dapperstraat van Bloem, maar hoewel het rijmde werd het niet herkend als poëzie. Wel als man schrijvend in de stijl van Tom Lanoye.

Tot slot besloot ik een stuk in te voeren van een van de schrijvers die dienen als stilistisch vergelijkingsmateriaal. Werd zo iemand herkend als zichzelf? Ik koos voor enkele mooie stukjes van Gerard Reve. Er werd vastgesteld dat hij een man was; zijn teksten werden beschouwd als sprookjes; ze scoorden niet hoog als literatuur. En ze waren geschreven door, opnieuw, Tom Lanoye. Onfortuinlijk.

Kortom: Stylene is een interessant programma dat in elk geval redelijk accuraat kan vaststellen of een auteur een man of een vrouw is, maar moeite heeft met poëzie en een nogal uitgesproken voorkeur heeft voor Tom Lanoye, Remco Campert en Jeroen Brouwers.

[Dit stukje is geschreven door een man, is non-fictie en lijkt alweer op Lanoye.]

4 gedachtes over “De stylometrist gemeten

  1. Het lijkt mij een vrij hopeloze onderneming. Het criterium ‘het lijkt op deze of gene ander’ is daarbij het summum van hopeloosheid. Als een auteur al niet origineel (zeg maar: zichzelf) is, waarom moet ik hem dan lezen? Dan kan ik beter zijn betere ik nemen. En om te bepalen of iemand man of vrouw is, daarvoor zijn duizend betere manieren te vinden. Zo blijft er niet veel over om zich in deze identificatiemethode te onderscheiden…

  2. Henk-Jan Vrielink

    HAHAHAHAHA

    Net een groot stuk uit het derde hoofdstuk van Mein Kampf ingevoerd : Dichtst bij wetgeving, dichtstbijzijnde schrijvers: Tom Lanoye en Jeroen Brouwers.

    Hilarisch !!!

  3. Ik heb een paar artikelen van mezelf en een collega getest. We schrijven allebei populair-wetenschappelijke artikelen. Die blijken redelijk genderneutraal te zijn, en het zijn combinaties van ‘wettekst’, ‘poëzie’, ‘sprookjes’ en ‘literair’. Ze scoren 0% op non-fictie. Verder blijkt onze stijl consequent te lijken op die van Herman Brusselmans. Daarop heb ik maar eens een lang fragment uit een boek van Brusselmans zelf in de analyse gegooid. Hij schrijft overduidelijk wetteksten. Ver daarachter scoorde hij als tweede op non-fictie. En dit alles in de stijl van… Jeroen Brouwers. De stijlovereenkomst van Brusselmans met Brusselmans was praktisch 0. Kortom, leuk bedacht deze tool, maar ik zie absoluut verbeterpuntjes ;).

    1. Ze hebben momenteel 6000 vergelijkingsteksten en ik vermoed dat ze het corpus aan het uitbreiden zijn; daarom die vraag aan het einde, of je van jezelf wil aangeven of je een man en een vrouw bent en tot welk genre het behoort.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s