Zinslengtecalculator

— Posted in Taal & Literatuur by

Laatst wilde ik, voor een voorbeeldje van een toepassing van de t-toets, de lengte van zinnen in twee jeugdromans met elkaar vergelijken. Je raadt: er moest een scriptje komen om zinnen uit teksten te halen en de woorden erin te tellen. Op een paar interpunctiedingetjes na geen lastig klusje, maar waarom niet ook hiervoor een webscriptje schrijven, zodat ik zoiets de volgende keer zonder enige moeite of ook maar een regel code kan doen? Bovendien kunnen ook anderen er op deze manier gebruik van maken.

Op https://www.reuneker.nl/senlen kun je een tekst invoeren en zowel de gemiddelde zinslengte, als een lijst met alle zinnen en hun woordenaantal genereren. Toegegeven, niet iedereen zal hier enthousiast van worden, maar ik heb er best plezier in zoiets te maken en wie weet wanneer en wie het nog eens van pas komt.

enter image description here

Zinslengte in 'De Stille Kracht' van Louis Couperus

Mocht je gewoon eens willen kijken hoe e.e.a. werkt, dan kun je gemakkelijk de zinslengtes bekijken in Jules Vernes Twenty Thousand Leagues under the Sea of Louis Couperus' Stille Kracht, die je met een klik op de desbetreffende knop op het scherm tovert.

Random Text Sampler

— Posted in Taal & Literatuur by

Soms is het handig om voor een vergelijkend onderzoek steekproeven (samples) van een bepaald aantal woorden uit een tekst te halen. Omdat dat typisch zo’n terugkerend klusje is waaraan ik elke keer toch weer meer tijd kwijt ben dan gedacht, heb ik er maar een online tooltje voor gemaakt.

enter image description here

Random text sampler

Het lijkt me zonde om dat voor mezelf te houden en daarom kan iedereen die dat wil op https://www.reuneker.nl/randsamples een tekst invoeren, het gewenste aantal steekproeven en de steekproefgrootte (in aantal woorden) selecteren en met een druk op de knop de samples tevoorschijn toveren. Je kunt daarbij ook aangeven dat je, per sample en voor het geheel, de type-token-ratio’s en MTLD-scores wilt zien.

Concreet was de aanleiding overigens een klein onderzoekje naar jeugdliteratuur ter illustratie van de t-toets-calculator voor studenten, dat je hier vindt: https://www.reuneker.nl/files/blog/2025/03/zinslengte-in-de-brief-voor-de-koning-en-kinderen-van-moeder-aarde. Mocht je gewoon eens willen kijken hoe e.e.a. werkt, dan kun je gemakkelijk samples nemen uit Jules Vernes Twenty Thousand Leagues under the Sea of Louis Couperus' Stille Kracht, die je met een klik op de desbetreffende knop op het scherm tovert.

Woordenschat en zinslengte in 'De brief voor de koning' en 'Kinderen van moeder aarde'

— Posted in Taal & Literatuur by

Bij het eerstejaarsvak Taal & Media van de opleiding Nederlandse Taal & Cultuur aan de Universiteit Leiden schrijven studenten een paper over een klein onderzoekje naar een van de besproken onderwerpen. Niet zelden willen ze dan een bepaalde indicatie van tekstniveau vergelijken tussen twee corpora, zoals pop- en rapteksten, verschillende jaren van Kinderen voor Kinderen of examenteksten. Ze meten dan lexicale diversiteit in termen van bijvoorbeeld type-token-ratio en/of MTLD.

Om van dergelijke vergelijkingen te kunnen zeggen of verschillen tussen twee corpora significant zijn, kun je de t-toets gebruiken. Om studenten in staat te stellen dat te doen zonder uitgebreide statistiek-software te hoeven gebruiken, heb ik een online toegankelijke t-toets-calculator gemaakt. Die waren er natuurlijk al, maar het leek me wel geschikt er een in het Nederlands te maken, die een nette rapportage van de resultaten geeft. Uiteraard moeten studenten in hun paper wel uitleggen hoe die resultaten tot stand zijn gekomen en vooral wat ze betekenen.

Als voorbeeld kijken we naar jeugdliteratuur. Naast lexicale diversiteit wordt ook zinslengte gekoppeld aan tekstniveau; teksten die geschikt zijn voor lagere niveaus zouden minder verschillende woorden bevatten (minder 'lexicaal divers' zijn) en bovendien kortere zinnen bevatten. Dat staat bijvoorbeeld bij de niveaus op Lezen voor de lijst, maar ook in dit stuk in Tekstblad. In dit stukje vergelijken we daarom de lexicale diversiteit en zinslengte in twee klassieke jeugdromans: Tonke Dragts De brief voor de koning, ingeschaald op niveau 1 en Thea Beckmans Kinderen van moeder aarde, ingeschaald op niveau 3. Het eerste boek zou, in principe, minder verschillende woorden en minder lange zinnen moeten bevatten dan het tweede. Dat gaan we toetsten.

Om te bepalen in hoeverre boeken op niveaus 1 en 3 verschillen in lexicale diversiteit, nam ik uit beide romans vijftien samples van 500 woorden en ik berekende daar de type-token-ratio's (ttr) van. De nulhypothese is dat beide samples niet van elkaar verschillen in type-token-ratio; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in type-token-ratio. Tonke Dragts boek leverde een gemiddelde ttr op van 0.52 (op een schaal van 0-1); voor Thea Beckmans boek was het gemiddelde 0.56.

enter image description here

Uitkomsten van de t-toets (type-token-ratio)

Er lijkt dus inderdaad een verschil te zijn tussen de twee boeken, maar is het verschil significant? De t-toets-calculator laat zien van wel, getuige de onderstaande rapportage.

Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in type-token-ratio tussen De brief voor de koning (m = 0.52; sd = 0.03) en Kinderen van moeder aarde (m = 0.56; sd = 0.03) is significant (t (28) = 4.13; p < 0.05). Het (negatieve) effect is zeer groot (Cohen's d = 1.51; Cohen, 1988).

Het verschil in gemiddelden is niet zo groot, maar ook de standaarddeviatie is klein en er blijkt een significant verschil te zijn tussen de romans wat betreft lexicale diversiteit. Dat effect is, volgens de effectmaat Cohen's d, zeer groot. Belangrijk daarbij is wat tussen haakjes staat: het effect is negatief, wat wil zeggen dat het gemiddelde van de eerste steekproef, Tonke Dragts boek, lager is dan dat van de tweede steekproef, Thea Beckmans boek. Dat is uiteraard ook wat we verwachtten.

Nu de zinslengte; het eerste boek bevat 13.352 zinnen en het tweede boek 11.530. Dat is wat veel voor een t-toets (je riskeert dan overmatige invloed van corpusgrootte op significantie). Voor een inzichtelijk voorbeeld nemen we daarom uit beide boeken 100 willekeurig geselecteerde zinnen. De nulhypothese is dat beide samples niet van elkaar verschillen in zinslengte; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in zinslengte – een zogenaamde non-directionele hypothese, want we spreken geen verwachting uit over de richting van een mogelijk verschil.

In de steekproef uit Tonke Dragts boek is de gemiddelde zinslengte 10.84 woorden, met een standaarddeviatie van 7.52. Dat zegt dat er flink wat variatie in zinslengtes is. In de steekproef uit Thea Beckmans boek is de gemiddelde zinslengte 12.07 woorden, met een standaarddeviatie van 9.06. We zien dus dat de zinnen in het boek op niveau 3 inderdaad gemiddeld langer zijn. Maar is het verschil groot genoeg om daar conclusies aan te verbinden?

enter image description here

Uitkomsten van de t-toets (zinslengte)

De t-toets geeft een waarde van 1.04 en dat is, gegeven de steekproeven, niet genoeg voor een significant verschil. De onderstaande rapportage, gegenereerd door de calculator, maakt dit duidelijk.

Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in zinslengte tussen De brief voor de koning (m = 10.84; sd = 7.52) en Kinderen van moeder aarde (m = 12.07; sd = 9.06) is niet significant (t (197) = 1.04; p >= 0.05). Het effect is verwaarloosbaar (Cohen's d = -0.15; Cohen, 1988).

Dit resultaat heeft uiteraard met de hoge standaarddeviatie te maken: er is te veel verschil binnen de twee boeken om te kunnen zeggen dat er ook een verschil tussen de boeken is. We concluderen daarom dat we de nulhypothese hypothese, namelijk dat er geen verschil is in zinslengte tussen beide boeken, niet kunnen verwerpen.

Samenvattend kunnen we stellen dat De brief voor de koning – een boek op niveau 1 – minder lexicaal divers is dan Kinderen van moeder aarde – een boek op niveau 3, maar dat het niveauverschil zich niet laat zien in zinslengte. Uiteraard is dit maar een voorbeeld met een beperkt corpus, dus verdere conclusies moeten we hier zeker niet aan verbinden, maar als illustratie van zinslengte, lexicale diversiteit en de t-toets volstaat het wel, lijkt me.

Wil je de calculator zelf gebruiken? Ga dan naar https://www.reuneker.nl/t.

Joop Zoetemelk Classic 2025

— Posted in Sport by

Afgelopen zaterdag reden Eva en ik samen de Joop Zoetemelk Classic, georganiseerd door Swift. Voor de start om 9.30 uur troffen we Joop Zoetemelk zelf in de kantine aan en dan kan een foto natuurlijk niet uitblijven.

enter image description here

Mooie stuurbordjes en dito sokken. Wat een leuke verrassing!

Het was prachtig zonnig, maar wel flink koud en er stond een harde wind. Daar de route je grotendeels door de polders voert, moesten we meteen flink tegen de wind in trappen. De route liep door het Groene Hart, met lange, open stukken, maar ook leuke dorpjes die ik nog uit mijn jeugd ken, zoals Hazerswoude en zelfs Benthuizen, waar ik vandaan kom. Daar stonden mijn ouders ons, samen met de kleine Casper, toe te juichen.

enter image description here

Kaiserschmarrn

Het was een mooie, leuk georganiseerde tocht en de kaiserschmarrn die we na afloop thuis aten maakte deze vroege voorjaarsklassieker compleet!

T-toets-calculator

— Posted in Taal & Literatuur by

Aangezien ik voorzie dat een aantal van mijn studenten verzamelingen van metingen van lexicale diversiteit wil gaan vergelijken, leek het me handig een t-toets-calculator te maken die gemakkelijk te gebruiken is en de juiste rapportage geeft van zowel significantie als effectgrootte (in termen van Cohen's d). Een en ander kan nog wat opgepoetst worden, maar de pagina is wel functioneel.

enter image description here Online t-toets-calculator

Je kunt 'm gebruiken op https://www.reuneker.nl/files/t/ en als je nog geen data hebt om te testen, dan kun je door middel van een druk op de knop een voorbeeldonderzoekje tevoorschijn roepen.

Pagina 1 of 44