Raadt de computer hoe oud de schrijver of lezer is?

Literaire teksten bestaan uit woorden en niet uit getallen: dat maakt het niet gemakkelijk om ze voor statistische analyses te gebruiken. Met behulp van computerprogramma’s lukt dat wel. Woorden kunnen worden omgezet in getallen en zo kunnen specifieke delen van een tekst op grote schaal worden onderzocht. Wetenschappers uit verschillende domeinen keken zo op verschillende manieren naar tekstelementen zoals zinslengte, woordlengte en lexicale diversiteit. Stylometrie is een van die vakgebieden. Het vakgebied bestudeert de schrijfstijl van één auteur en let daarbij op typische elementen van hun stijl. Zo kunnen anonieme teksten toch aan een auteur worden gekoppeld. In het onderzoek naar kinderliteratuur worden die typische elementen uit een tekst meestal in verband gebracht met de complexiteit van een tekst en de leeftijd van de doelgroep. In dit artikel analyseert Lindsey Geybels gegevens van het volledige CAFYR-corpus (iets minder dan 700 Engelse en Nederlandse boeken geschreven voor verschillende leeftijden) statistisch. Zij gaat na of je met de tekstelementen beter kan achterhalen voor welke leeftijd een tekst is bedoeld, of net wie of hoe oud de auteur ervan is.

Geybels, Lindsey. ‘Determining Author or Reader: A Statistical Analysis of Textual Features in Children’s and Adult Literature’.

Proceedings of the Computational Humanities Research Conference, 2022, pp. 355–365.

Lees de paper