Woordenschat en zinslengte in 'De brief voor de koning' en 'Kinderen van moeder aarde'

— Posted in Taal & Literatuur by

Bij het eerstejaarsvak Taal & Media van de opleiding Nederlandse Taal & Cultuur aan de Universiteit Leiden schrijven studenten een paper over een klein onderzoekje naar een van de besproken onderwerpen. Niet zelden willen ze dan een bepaalde indicatie van tekstniveau vergelijken tussen twee corpora, zoals pop- en rapteksten, verschillende jaren van Kinderen voor Kinderen of examenteksten. Ze meten dan lexicale diversiteit in termen van bijvoorbeeld type-token-ratio en/of MTLD.

Om van dergelijke vergelijkingen te kunnen zeggen of verschillen tussen twee corpora significant zijn, kun je de t-toets gebruiken. Om studenten in staat te stellen dat te doen zonder uitgebreide statistiek-software te hoeven gebruiken, heb ik een online toegankelijke t-toets-calculator gemaakt. Die waren er natuurlijk al, maar het leek me wel geschikt er een in het Nederlands te maken, die een nette rapportage van de resultaten geeft. Uiteraard moeten studenten in hun paper wel uitleggen hoe die resultaten tot stand zijn gekomen en vooral wat ze betekenen.

Als voorbeeld kijken we naar jeugdliteratuur. Naast lexicale diversiteit wordt ook zinslengte gekoppeld aan tekstniveau; teksten die geschikt zijn voor lagere niveaus zouden minder verschillende woorden bevatten (minder 'lexicaal divers' zijn) en bovendien kortere zinnen bevatten. Dat staat bijvoorbeeld bij de niveaus op Lezen voor de lijst, maar ook in dit stuk in Tekstblad. In dit stukje vergelijken we daarom de lexicale diversiteit en zinslengte in twee klassieke jeugdromans: Tonke Dragts De brief voor de koning, ingeschaald op niveau 1 en Thea Beckmans Kinderen van moeder aarde, ingeschaald op niveau 3. Het eerste boek zou, in principe, minder verschillende woorden en minder lange zinnen moeten bevatten dan het tweede. Dat gaan we toetsten.

Om te bepalen in hoeverre boeken op niveaus 1 en 3 verschillen in lexicale diversiteit, nam ik uit beide romans vijftien samples van 500 woorden en ik berekende daar de type-token-ratio's (ttr) van. De nulhypothese is dat beide samples niet van elkaar verschillen in type-token-ratio; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in type-token-ratio. Tonke Dragts boek leverde een gemiddelde ttr op van 0.52 (op een schaal van 0-1); voor Thea Beckmans boek was het gemiddelde 0.56.

enter image description here

Uitkomsten van de t-toets (type-token-ratio)

Er lijkt dus inderdaad een verschil te zijn tussen de twee boeken, maar is het verschil significant? De t-toets-calculator laat zien van wel, getuige de onderstaande rapportage.

Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in type-token-ratio tussen De brief voor de koning (m = 0.52; sd = 0.03) en Kinderen van moeder aarde (m = 0.56; sd = 0.03) is significant (t (28) = 4.13; p < 0.05). Het (negatieve) effect is zeer groot (Cohen's d = 1.51; Cohen, 1988).

Het verschil in gemiddelden is niet zo groot, maar ook de standaarddeviatie is klein en er blijkt een significant verschil te zijn tussen de romans wat betreft lexicale diversiteit. Dat effect is, volgens de effectmaat Cohen's d, zeer groot. Belangrijk daarbij is wat tussen haakjes staat: het effect is negatief, wat wil zeggen dat het gemiddelde van de eerste steekproef, Tonke Dragts boek, lager is dan dat van de tweede steekproef, Thea Beckmans boek. Dat is uiteraard ook wat we verwachtten.

Nu de zinslengte; het eerste boek bevat 13.352 zinnen en het tweede boek 11.530. Dat is wat veel voor een t-toets (je riskeert dan overmatige invloed van corpusgrootte op significantie). Voor een inzichtelijk voorbeeld nemen we daarom uit beide boeken 100 willekeurig geselecteerde zinnen. De nulhypothese is dat beide samples niet van elkaar verschillen in zinslengte; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in zinslengte – een zogenaamde non-directionele hypothese, want we spreken geen verwachting uit over de richting van een mogelijk verschil.

In de steekproef uit Tonke Dragts boek is de gemiddelde zinslengte 10.84 woorden, met een standaarddeviatie van 7.52. Dat zegt dat er flink wat variatie in zinslengtes is. In de steekproef uit Thea Beckmans boek is de gemiddelde zinslengte 12.07 woorden, met een standaarddeviatie van 9.06. We zien dus dat de zinnen in het boek op niveau 3 inderdaad gemiddeld langer zijn. Maar is het verschil groot genoeg om daar conclusies aan te verbinden?

enter image description here

Uitkomsten van de t-toets (zinslengte)

De t-toets geeft een waarde van 1.04 en dat is, gegeven de steekproeven, niet genoeg voor een significant verschil. De onderstaande rapportage, gegenereerd door de calculator, maakt dit duidelijk.

Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in zinslengte tussen De brief voor de koning (m = 10.84; sd = 7.52) en Kinderen van moeder aarde (m = 12.07; sd = 9.06) is niet significant (t (197) = 1.04; p >= 0.05). Het effect is verwaarloosbaar (Cohen's d = -0.15; Cohen, 1988).

Dit resultaat heeft uiteraard met de hoge standaarddeviatie te maken: er is te veel verschil binnen de twee boeken om te kunnen zeggen dat er ook een verschil tussen de boeken is. We concluderen daarom dat we de nulhypothese hypothese, namelijk dat er geen verschil is in zinslengte tussen beide boeken, niet kunnen verwerpen.

Samenvattend kunnen we stellen dat De brief voor de koning – een boek op niveau 1 – minder lexicaal divers is dan Kinderen van moeder aarde – een boek op niveau 3, maar dat het niveauverschil zich niet laat zien in zinslengte. Uiteraard is dit maar een voorbeeld met een beperkt corpus, dus verdere conclusies moeten we hier zeker niet aan verbinden, maar als illustratie van zinslengte, lexicale diversiteit en de t-toets volstaat het wel, lijkt me.

Wil je de calculator zelf gebruiken? Ga dan naar https://www.reuneker.nl/t.

De Zevensprong-wandeling

— Posted in Overig by

Gisteren reisde ik met mijn zus af naar Ruurlo – een flink eind weg, maar er stond dan ook een heuse Zevensprong-wandeling op het programma. Eigenlijk is het een fietstocht voor kinderen, maar als volwassene met enigszins nostalgische gevoelens voor het boek (1966) van Tonke Dragt en/of de tv-serie (1982) kun je 'm ook prima wandelen.

enter image description here

De wegbewijzering van de Zevensprong-route

Bij De Heikamp dronken we koffie en kochten we het routeboekje. Ik had de route ook als GPX-bestand, maar het boekje is wel echt een aanrader, ook als je de (erg leuke) opdrachten niet wilt doen; wij zouden bijvoorbeeld pardoes langs café De Rode Man zijn gelopen als we het gidsje niet in de hand hadden.

Vrij snel zagen we al de steen met daarop een deel van de voorspelling uit het boek en we vervolgden de weg over schitterende bospaden.

enter image description here

Een deel van de voorspelling

Ondertussen lazen we wat in het routeboekje en hadden we ook buiten het boek voldoende gespreksstof. Over vijftien kilometer wandelen doe je lekker lang als je vaak stilstaat om wat te bekijken in de mooie najaarszon. Heerlijk. We misten, zoals gezegd, bijna café De Rode Man, waarvoor je het terrein van camping De Tamaring op moet. Het terras(je) is in het najaar/de winter niet open, maar je kunt er zonder problemen rondkijken. Geen koffie dus – sowieso zijn er weinig tot geen etablissementen op de route, behalve richting het einde in het centrum van Ruurlo – maar dat is voor een kinderfietstocht natuurlijk niet zo gek.

Rond lunchtijd kwamen we in het bos de beroemde wegwijzer tegen. We spraken daar een echtpaar waarvan de man zich nog wist te herinneren dat er opnames voor de tv-serie werden gemaakt. Hij werd gevraagd zijn brommer koest te houden, omdat het knetterende geluid anders de opnames zou verstoren. Leuk om gewoon even een praatje te maken met iemand bij wie dat zichtbaar allerlei herinneringen opriep.

enter image description here

De beroemde wegwijzer uit de tv-serie

Aan het einde van de route kwamen we bij het spektakelstuk – het kasteel waar, in de serie, Geert Jan met zijn boze oom en dito personeel woont en waar leraar Frans van der Steg hem lesgeeft. Het kasteel van Ruurlo is nu een museum, maar je kunt er ook gewoon mooi omheen lopen door de kasteeltuin en de pracht van het pand bewonderen. Natuurlijk bedenk je dan waar zich de taferelen uit het boek of de serie afspeelden. Waar zette Frans de Rode bijvoorbeeld zijn ladder neer om de schat te zoeken en Geert Jan te redden?

enter image description here

Kasteel Ruurlo

We boften, zoals te zien is op de foto's, overigens enorm met het prachtige eindnovemberweer en dat maakte deze dag een heel mooie trip down memory lane. Voor iedereen die warme herinneringen heeft aan het boek en/of de serie: een aanrader!