Taal & Literatuur

Posts over taal en literatuur

Neerlandistiekdagen 2025: homofone werkwoorden voor gereduceerd voornaamwoord 'je'

— Posted in Taal & Literatuur by

Aanstaande donderdag en vrijdag, 3 en 4 april 2025, vinden de Neerlandistiekdagen plaats aan de Radboud Universiteit Nijmegen. Daar presenteren mijn student-assistent Mette Rebel en ik de resultaten van een door Digital Humanities gefinancierd onderzoek naar spelfouten bij homofone werkwoorden voor het gereduceerd bezittelijk en persoonlijk voornaamwoord je; kort gezegd het verschil tussen 'Word je piloot?' en 'Wordt je broer piloot?' Hieronder vind je het abstract.

Hoewel de regels betrekkelijk simpel zijn, blijft werkwoordspelling voor velen een worsteling (Sandra, Frisson & Daems, 1999). Leerlingen en studenten presteren ondermaats en ook docenten in zowel het basis- als voortgezet onderwijs hebben de spellingregels niet genoeg in de vingers, hoewel deze groepen het erover eens zijn dat correcte grammatica en spelling van belang zijn (Coppen, 2009, p. 236). Volgens Borsten en Jongenelen (2012) neemt het aantal spelfouten bij werkwoorden weliswaar af naargelang het schoolniveau stijgt, maar blijft de spelling van homofone werkwoorden voor het gereduceerde voornaamwoord je, ook bij de beste spellers uit 6 vwo, een probleemcategorie. Het voornaamwoord je kan in deze zinnen immers de zwakke vorm van zowel het persoonlijk voornaamwoord jij zijn (‘Wellicht word je/jij piloot’), als van het bezittelijke voornaamwoord jouw (‘Wellicht wordt je/jouw broer piloot’; zie ook Odijk, 2003, pp. 16-18), met een verschil in spelling tot gevolg.

In deze bijdrage onderzoeken we dit nog weinig empirisch benaderde probleem aan de hand van twee vragen. De eerste vraag is in hoeverre er een associatie bestaat tussen spelfouten in homofone werkwoorden en de twee functies van het gereduceerd voornaamwoord je. De tweede vraag luidt in hoeverre er een correlatie bestaat tussen leerjaar en aantal gemaakte spelfouten bij dit verschijnsel. Daartoe vergeleken we in een grootschalige data-analyse (zie ook Reuneker & Dunning, 2023; Reuneker, 2024) de werkwoordspelling van leerlingen. Homofone werkwoorden die voorafgaan aan je blijken inderdaad een probleemcategorie. Op basis van de beschikbare literatuur en een kwantitatieve analyse trekken we een conclusie en formuleren we concrete aanbevelingen voor taaladviesdienst en -onderwijs.

Zie het gehele abstract inclusief referenties op https://www.reuneker.nl/files/papers/rebel_reuneker_neerlandistiekdagen_2025.pdf.

Wellicht tot donderdag en vrijdag bij de Neerlandistiekdagen!

Sorting fixed in the keyword analysis tool

— Posted in Taal & Literatuur by

A couple of weeks ago, I demonstrated the keyword analysis tool to students, so they could use it for their own research projects. As is often the case when demonstrating: it didn't work properly. More specifically, the sorting didn't work anymore. (I think it never worked properly...) It was immediately clear to me what the problem was, namely that it sorted on strings rather than numbers. An easy fix, but an important one. So, just as an update: sorting on rank, word, target frequency, reference frequency, odds ratio, and log-likelihood works properly now.

enter image description here

Keywords in a text on ANOVA, sorted by odds ratio

Zinslengtecalculator

— Posted in Taal & Literatuur by

Laatst wilde ik, voor een voorbeeldje van een toepassing van de t-toets, de lengte van zinnen in twee jeugdromans met elkaar vergelijken. Je raadt: er moest een scriptje komen om zinnen uit teksten te halen en de woorden erin te tellen. Op een paar interpunctiedingetjes na geen lastig klusje, maar waarom niet ook hiervoor een webscriptje schrijven, zodat ik zoiets de volgende keer zonder enige moeite of ook maar een regel code kan doen? Bovendien kunnen ook anderen er op deze manier gebruik van maken.

Op https://www.reuneker.nl/senlen kun je een tekst invoeren en zowel de gemiddelde zinslengte, als een lijst met alle zinnen en hun woordenaantal genereren. Toegegeven, niet iedereen zal hier enthousiast van worden, maar ik heb er best plezier in zoiets te maken en wie weet wanneer en wie het nog eens van pas komt.

enter image description here

Zinslengte in 'De Stille Kracht' van Louis Couperus

Mocht je gewoon eens willen kijken hoe e.e.a. werkt, dan kun je gemakkelijk de zinslengtes bekijken in Jules Vernes Twenty Thousand Leagues under the Sea of Louis Couperus' Stille Kracht, die je met een klik op de desbetreffende knop op het scherm tovert.

Random Text Sampler

— Posted in Taal & Literatuur by

Soms is het handig om voor een vergelijkend onderzoek steekproeven (samples) van een bepaald aantal woorden uit een tekst te halen. Omdat dat typisch zo’n terugkerend klusje is waaraan ik elke keer toch weer meer tijd kwijt ben dan gedacht, heb ik er maar een online tooltje voor gemaakt.

enter image description here

Random text sampler

Het lijkt me zonde om dat voor mezelf te houden en daarom kan iedereen die dat wil op https://www.reuneker.nl/randsamples een tekst invoeren, het gewenste aantal steekproeven en de steekproefgrootte (in aantal woorden) selecteren en met een druk op de knop de samples tevoorschijn toveren. Je kunt daarbij ook aangeven dat je, per sample en voor het geheel, de type-token-ratio’s en MTLD-scores wilt zien.

Concreet was de aanleiding overigens een klein onderzoekje naar jeugdliteratuur ter illustratie van de t-toets-calculator voor studenten, dat je hier vindt: https://www.reuneker.nl/files/blog/2025/03/zinslengte-in-de-brief-voor-de-koning-en-kinderen-van-moeder-aarde. Mocht je gewoon eens willen kijken hoe e.e.a. werkt, dan kun je gemakkelijk samples nemen uit Jules Vernes Twenty Thousand Leagues under the Sea of Louis Couperus' Stille Kracht, die je met een klik op de desbetreffende knop op het scherm tovert.

Woordenschat en zinslengte in 'De brief voor de koning' en 'Kinderen van moeder aarde'

— Posted in Taal & Literatuur by

Bij het eerstejaarsvak Taal & Media van de opleiding Nederlandse Taal & Cultuur aan de Universiteit Leiden schrijven studenten een paper over een klein onderzoekje naar een van de besproken onderwerpen. Niet zelden willen ze dan een bepaalde indicatie van tekstniveau vergelijken tussen twee corpora, zoals pop- en rapteksten, verschillende jaren van Kinderen voor Kinderen of examenteksten. Ze meten dan lexicale diversiteit in termen van bijvoorbeeld type-token-ratio en/of MTLD.

Om van dergelijke vergelijkingen te kunnen zeggen of verschillen tussen twee corpora significant zijn, kun je de t-toets gebruiken. Om studenten in staat te stellen dat te doen zonder uitgebreide statistiek-software te hoeven gebruiken, heb ik een online toegankelijke t-toets-calculator gemaakt. Die waren er natuurlijk al, maar het leek me wel geschikt er een in het Nederlands te maken, die een nette rapportage van de resultaten geeft. Uiteraard moeten studenten in hun paper wel uitleggen hoe die resultaten tot stand zijn gekomen en vooral wat ze betekenen.

Als voorbeeld kijken we naar jeugdliteratuur. Naast lexicale diversiteit wordt ook zinslengte gekoppeld aan tekstniveau; teksten die geschikt zijn voor lagere niveaus zouden minder verschillende woorden bevatten (minder 'lexicaal divers' zijn) en bovendien kortere zinnen bevatten. Dat staat bijvoorbeeld bij de niveaus op Lezen voor de lijst, maar ook in dit stuk in Tekstblad. In dit stukje vergelijken we daarom de lexicale diversiteit en zinslengte in twee klassieke jeugdromans: Tonke Dragts De brief voor de koning, ingeschaald op niveau 1 en Thea Beckmans Kinderen van moeder aarde, ingeschaald op niveau 3. Het eerste boek zou, in principe, minder verschillende woorden en minder lange zinnen moeten bevatten dan het tweede. Dat gaan we toetsten.

Om te bepalen in hoeverre boeken op niveaus 1 en 3 verschillen in lexicale diversiteit, nam ik uit beide romans vijftien samples van 500 woorden en ik berekende daar de type-token-ratio's (ttr) van. De nulhypothese is dat beide samples niet van elkaar verschillen in type-token-ratio; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in type-token-ratio. Tonke Dragts boek leverde een gemiddelde ttr op van 0.52 (op een schaal van 0-1); voor Thea Beckmans boek was het gemiddelde 0.56.

enter image description here

Uitkomsten van de t-toets (type-token-ratio)

Er lijkt dus inderdaad een verschil te zijn tussen de twee boeken, maar is het verschil significant? De t-toets-calculator laat zien van wel, getuige de onderstaande rapportage.

Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in type-token-ratio tussen De brief voor de koning (m = 0.52; sd = 0.03) en Kinderen van moeder aarde (m = 0.56; sd = 0.03) is significant (t (28) = 4.13; p < 0.05). Het (negatieve) effect is zeer groot (Cohen's d = 1.51; Cohen, 1988).

Het verschil in gemiddelden is niet zo groot, maar ook de standaarddeviatie is klein en er blijkt een significant verschil te zijn tussen de romans wat betreft lexicale diversiteit. Dat effect is, volgens de effectmaat Cohen's d, zeer groot. Belangrijk daarbij is wat tussen haakjes staat: het effect is negatief, wat wil zeggen dat het gemiddelde van de eerste steekproef, Tonke Dragts boek, lager is dan dat van de tweede steekproef, Thea Beckmans boek. Dat is uiteraard ook wat we verwachtten.

Nu de zinslengte; het eerste boek bevat 13.352 zinnen en het tweede boek 11.530. Dat is wat veel voor een t-toets (je riskeert dan overmatige invloed van corpusgrootte op significantie). Voor een inzichtelijk voorbeeld nemen we daarom uit beide boeken 100 willekeurig geselecteerde zinnen. De nulhypothese is dat beide samples niet van elkaar verschillen in zinslengte; de alternatieve hypothese is dat beide samples wel van elkaar verschillen in zinslengte – een zogenaamde non-directionele hypothese, want we spreken geen verwachting uit over de richting van een mogelijk verschil.

In de steekproef uit Tonke Dragts boek is de gemiddelde zinslengte 10.84 woorden, met een standaarddeviatie van 7.52. Dat zegt dat er flink wat variatie in zinslengtes is. In de steekproef uit Thea Beckmans boek is de gemiddelde zinslengte 12.07 woorden, met een standaarddeviatie van 9.06. We zien dus dat de zinnen in het boek op niveau 3 inderdaad gemiddeld langer zijn. Maar is het verschil groot genoeg om daar conclusies aan te verbinden?

enter image description here

Uitkomsten van de t-toets (zinslengte)

De t-toets geeft een waarde van 1.04 en dat is, gegeven de steekproeven, niet genoeg voor een significant verschil. De onderstaande rapportage, gegenereerd door de calculator, maakt dit duidelijk.

Op de bovenstaande gegevens is een t-toets toegepast (Reuneker, 2025) om te bepalen of gemiddelden van beide dataverzamelingen, gegeven de variantie, significant van elkaar afwijken. Het verschil in zinslengte tussen De brief voor de koning (m = 10.84; sd = 7.52) en Kinderen van moeder aarde (m = 12.07; sd = 9.06) is niet significant (t (197) = 1.04; p >= 0.05). Het effect is verwaarloosbaar (Cohen's d = -0.15; Cohen, 1988).

Dit resultaat heeft uiteraard met de hoge standaarddeviatie te maken: er is te veel verschil binnen de twee boeken om te kunnen zeggen dat er ook een verschil tussen de boeken is. We concluderen daarom dat we de nulhypothese hypothese, namelijk dat er geen verschil is in zinslengte tussen beide boeken, niet kunnen verwerpen.

Samenvattend kunnen we stellen dat De brief voor de koning – een boek op niveau 1 – minder lexicaal divers is dan Kinderen van moeder aarde – een boek op niveau 3, maar dat het niveauverschil zich niet laat zien in zinslengte. Uiteraard is dit maar een voorbeeld met een beperkt corpus, dus verdere conclusies moeten we hier zeker niet aan verbinden, maar als illustratie van zinslengte, lexicale diversiteit en de t-toets volstaat het wel, lijkt me.

Wil je de calculator zelf gebruiken? Ga dan naar https://www.reuneker.nl/t.

Pagina 1 of 7