Woordenschat en zinslengte in 'De brief voor de koning' en 'Kinderen van moeder aarde'
Bij het eerstejaarsvak Taal & Media van de opleiding Nederlandse Taal & Cultuur aan de Universiteit Leiden schrijven studenten een paper over een klein onderzoekje naar een van de besproken onderwerpen. Niet zelden willen ze dan een bepaalde indicatie van tekstniveau vergelijken tussen twee corpora, zoals pop- en rapteksten, verschillende jaren van Kinderen voor Kinderen of examenteksten. Ze meten dan lexicale diversiteit in termen van bijvoorbeeld type-token-ratio en/of MTLD.
Om van dergelijke vergelijkingen te kunnen zeggen of verschillen tussen twee corpora significant zijn, kun je de t-toets gebruiken. Om studenten in staat te stellen dat te doen zonder uitgebreide statistiek-software te hoeven gebruiken, heb ik een online toegankelijke t-toets-calculator gemaakt. Die waren er natuurlijk al, maar het leek me wel geschikt er een in het Nederlands te maken, die een nette rapportage van de resultaten geeft. Uiteraard moeten studenten in hun paper wel uitleggen hoe die resultaten tot stand zijn gekomen en vooral wat ze betekenen.
Als voorbeeld kijken we naar jeugdliteratuur. Naast lexicale diversiteit wordt ook zinslengte gekoppeld aan tekstniveau; teksten die geschikt zijn voor lagere niveaus zouden minder verschillende woorden bevatten (minder 'lexicaal divers' zijn) en bovendien kortere zinnen bevatten. Dat staat bijvoorbeeld bij de niveaus op Lezen voor de lijst, maar ook in dit stuk in Tekstblad. In dit stukje vergelijken we daarom de lexicale diversiteit en zinslengte in twee klassieke jeugdromans: Tonke Dragts De brief voor de koning, ingeschaald op niveau 1 en Thea Beckmans Kinderen van moeder aarde, ingeschaald op niveau 3. Het eerste boek zou, in principe, minder verschillende woorden en minder lange zinnen moeten bevatten dan het tweede. Dat gaan we toetsten.
Om te bepalen in hoeverre boeken op niveaus 1 en 3 verschillen in lexicale diversiteit, nam ik uit beide romans vijftien samples van 500 woorden en ik berekende daar de type-token-ratio's (ttr) van. De nulhypothese is dat beide samples niet van elkaar verschillen in type-token-ratio; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in type-token-ratio. Tonke Dragts boek leverde een gemiddelde ttr op van 0.52 (op een schaal van 0-1); voor Thea Beckmans boek was het gemiddelde 0.56.
Uitkomsten van de t-toets (type-token-ratio)
Er lijkt dus inderdaad een verschil te zijn tussen de twee boeken, maar is het verschil significant? De t-toets-calculator laat zien van wel, getuige de onderstaande rapportage.
Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in type-token-ratio tussen De brief voor de koning (m = 0.52; sd = 0.03) en Kinderen van moeder aarde (m = 0.56; sd = 0.03) is significant (t (28) = 4.13; p < 0.05). Het (negatieve) effect is zeer groot (Cohen's d = 1.51; Cohen, 1988).
Het verschil in gemiddelden is niet zo groot, maar ook de standaarddeviatie is klein en er blijkt een significant verschil te zijn tussen de romans wat betreft lexicale diversiteit. Dat effect is, volgens de effectmaat Cohen's d, zeer groot. Belangrijk daarbij is wat tussen haakjes staat: het effect is negatief, wat wil zeggen dat het gemiddelde van de eerste steekproef, Tonke Dragts boek, lager is dan dat van de tweede steekproef, Thea Beckmans boek. Dat is uiteraard ook wat we verwachtten.
Nu de zinslengte; het eerste boek bevat 13.352 zinnen en het tweede boek 11.530. Dat is wat veel voor een t-toets (je riskeert dan overmatige invloed van corpusgrootte op significantie). Voor een inzichtelijk voorbeeld nemen we daarom uit beide boeken 100 willekeurig geselecteerde zinnen. De nulhypothese is dat beide samples niet van elkaar verschillen in zinslengte; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in zinslengte – een zogenaamde non-directionele hypothese, want we spreken geen verwachting uit over de richting van een mogelijk verschil.
In de steekproef uit Tonke Dragts boek is de gemiddelde zinslengte 10.84 woorden, met een standaarddeviatie van 7.52. Dat zegt dat er flink wat variatie in zinslengtes is. In de steekproef uit Thea Beckmans boek is de gemiddelde zinslengte 12.07 woorden, met een standaarddeviatie van 9.06. We zien dus dat de zinnen in het boek op niveau 3 inderdaad gemiddeld langer zijn. Maar is het verschil groot genoeg om daar conclusies aan te verbinden?
Uitkomsten van de t-toets (zinslengte)
De t-toets geeft een waarde van 1.04 en dat is, gegeven de steekproeven, niet genoeg voor een significant verschil. De onderstaande rapportage, gegenereerd door de calculator, maakt dit duidelijk.
Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in zinslengte tussen De brief voor de koning (m = 10.84; sd = 7.52) en Kinderen van moeder aarde (m = 12.07; sd = 9.06) is niet significant (t (197) = 1.04; p >= 0.05). Het effect is verwaarloosbaar (Cohen's d = -0.15; Cohen, 1988).
Dit resultaat heeft uiteraard met de hoge standaarddeviatie te maken: er is te veel verschil binnen de twee boeken om te kunnen zeggen dat er ook een verschil tussen de boeken is. We concluderen daarom dat we de nulhypothese hypothese, namelijk dat er geen verschil is in zinslengte tussen beide boeken, niet kunnen verwerpen.
Samenvattend kunnen we stellen dat De brief voor de koning – een boek op niveau 1 – minder lexicaal divers is dan Kinderen van moeder aarde – een boek op niveau 3, maar dat het niveauverschil zich niet laat zien in zinslengte. Uiteraard is dit maar een voorbeeld met een beperkt corpus, dus verdere conclusies moeten we hier zeker niet aan verbinden, maar als illustratie van zinslengte, lexicale diversiteit en de t-toets volstaat het wel, lijkt me.
Wil je de calculator zelf gebruiken? Ga dan naar https://www.reuneker.nl/t.