Wanneer uw kind thuiskomt van school met een ondoorgrondelijke rode markering op zijn of haar testresultaten (wat betekent 153 eigenlijk? Is het uit 200? 154?) uw eerste vraag is waarschijnlijk "wat was de gemiddelde score?" Je kind hoeft geen genie te zijn, maar het is fijn om te weten dat hij of zij op zijn minst gemiddeld is. Dat is de reden waarom de self-serving, maar schijnbaar legitieme bevindingen van een onderzoek uitgevoerd door op rubrieken gebaseerde online beoordelingstool Gradescope, zo zenuwslopend zijn. Slechte wiskundescores worden al lang begrepen door de lens van slechte wiskunde.
“Er is geen gemiddelde student” Liz Carlson van Gradescope verklaart op de blog van het bedrijf:. De studie meldt inderdaad dat van de 1.500 studenten informatica die antwoorden op zeven eindexamenvragen hebben ingediend, slechts een scoorde op alle zeven vragen binnen de gemiddelde 20 procent. Het team van Gradescope analyseerde de beoordelingsgegevens van een computerwetenschappelijke cursus van 1500 studenten, die bestond uit zeven vragen en 26 subvragen. Een perfecte score was (op de een of andere manier?) 80, en de gemiddelde score onder de studenten was 46. Toch ontdekten de onderzoekers dat slechts één van de studenten op alle zeven vragen binnen de gemiddelde 20 procent scoorde.
Minder dan 1 op de 25 studenten scoorde binnen het gemiddelde bereik op vijf of meer vragen. Bijna 25 procent van de studenten behaalde geen gemiddelde cijfers op een enkele vraag.
Nu is de studie van Gradescope niet gepubliceerd in een peer-reviewed tijdschrift en hebben de onderzoekers aanzienlijke belangenconflicten. De resultaten geven bijvoorbeeld aan dat een meer geïndividualiseerde en gedetailleerde benadering van beoordeling noodzakelijk is - en dat is precies wat Gradescope verkoopt. Toch doen de bevindingen echo eerder onderzoek dat suggereert dat uniforme normen zoals tests achterhaald zijn, en dat echt gemiddelde studenten (en mensen in het algemeen) waarschijnlijk niet bestaan.
Nog verwarrender is dat onder het handjevol studenten dat algemene scores binnen 20 procent van het gemiddelde behaalde (dat wil zeggen, tussen 41,4 en 50,6) maar liefst 14 hadden op geen van de zeven scores die binnen de gemiddelde 20 procent vielen vragen. Met andere woorden, hun algemene cijfers waren gemiddeld, maar hun prestaties op individuele testvragen waren dat niet. De bevindingen vereisen follow-up en peer review, maar suggereren in het algemeen dat het beoordelen op een curve - en inderdaad, conventioneel beoordelen zoals we dat kennen - er niet in slaagt de sterke en zwakke punten van studenten vast te leggen.
“We ontdekten dat de discrepantie tussen gemiddeld scorende studenten meer dan 40 procent kon zijn - een echt significant verschil in wat elke student precies leerde, "schrijft Carlson. “We hebben gekeken naar twee studenten die allebei 51,5 van de 80 punten behaalden op het examen. Ondanks dat ze een identieke score behaalden, hadden ze 67 discrepanties tussen rubriekitems, of bijna 44 procent van alle rubriekitems.
"Ze begrepen in wezen slechts de helft van hetzelfde materiaal."