Reactie van het CvTE op de blog van 25 november op Sargasso.nl over de normering

Op 25 november verscheen op Sargasso.nl een blog met als titel ‘Normering eindexamens wellicht te soepel’. Hieronder vindt u onze reactie.

De p-waarde is de gemiddelde score (als percentage van de maximumscore) die de kandidaten op een examen behaald hebben. Een groep haalt op een gemakkelijk examen een hogere gemiddelde score dan op een moeilijk examen. Een gemakkelijk examen (hoge p-waarde) krijgt een lagere N-term dan een moeilijk examen. Dus in die zin klopt het dat lage N-termen vaak samengaan met hoge p-waarden.

Wat ook kan is het volgende:

Stel dat twee examens precies dezelfde moeilijkheidsgraad hebben. Bv. het examen van 2008 en dat van 2015. En stel dat de p-waarde van het examen van 2008 gelijk is aan 0,59 (de groep van 2008 behaalde gemiddeld 59% van de maximum score) en die van 2015 aan 0,63. Dan moeten we wel concluderen dat de kandidaten van 2015 vaardiger zijn dan die van 2006.

Of:

Stel dat twee examens dezelfde p-waarde hebben, bijvoorbeeld die van 2011 en 2016. Moeten die examens dan dezelfde N-term krijgen? Antwoord: Alleen als die examens ook even moeilijk zijn. Maar als het examen van 2016 moeilijker was dan dat van 2011 en de p-waarden zijn hetzelfde, dan was de populatie van 2016 dus vaardiger dan die van 2011.

De twee bovenstaande voorbeelden, die komen uit de plaatjes van de Sargasso-blog, geven precies weer wat op basis van de normeringstechnieken van Cito is geconstateerd: de populatie van 2016 was echt vaardiger dan die van 2011. En die van 2015 was vaardiger dan die van 2008.

Dankzij de normeringstechnieken van Cito (pretest, posttest, anker in package en Fisher-methode) hebben we dat kunnen constateren en konden we recht doen aan betere prestaties. Dit is een groot goed van ons CE-systeem. Het maakt alleen dat het normeringssysteem niet zo makkelijk uit te leggen is.

Veel simpeler zou het zijn als we de N-term zo kiezen dat ieder CE een vast percentage onvoldoende heeft (bijvoorbeeld 20%) of een vast gemiddeld cijfer (bijvoorbeeld 6,3). Maar in dat geval zouden de slaagpercentages niet stijgen als alle leerlingen beter presteren.

In de notitie ‘De normeringssystematiek van de centrale examens vo’ is de werking van de normeringstechnieken beschreven.

Uit de blog lijkt te spreken dat de schrijver van mening is dat de N-termen rechtstreeks uit de p-waarden horen te worden afgeleid. Als we dat gedaan hadden, zouden de betere prestaties sinds 2012 niet geleid hebben tot betere resultaten. Dan hadden we de eindexamenleerlingen vanaf 2012 te kort gedaan. We hebben daadwerkelijk gezien dat de populaties sinds 2012 vaardiger zijn. In de genoemde notitie is dit eveneens beschreven.

Dat de rode lijn rechts in de afbeelding uit de blog boven de blauwe loopt is hiervan een treffende illustratie. Een betere kop van de blog zou dus zijn: ‘VO-leerlingen presteren zichtbaar beter sinds 2012’.