Verdien av testing

Neste gang du leser en artikkel der resultatene rangeres, tenk på dette paradokset, skriver Jan Ubøe, professor i matematikk i DN 22. mai.

22.05.2014 - Jan Ubøe

I disse tider skal visst alt testes. Kanskje det er en god ting? Så hvorfor ikke teste norske beslutningstagere, med full offentliggjøring av resultatene? Trolig ikke et populært tiltak, men like fullt nødvendig.

Vi må jo være sikre på at disse i all hovedsak treffer riktige og edruelige beslutninger.

Alle potensielle deltagere er naturligvis svært opptatt med viktige ting, så testen bør være kort og poengtert. Jeg kunne tenke meg en test med bare ett spørsmål. Det bør være relevant, tidsriktig og stilt på en måte som alle kan forstå og kunne for eksempel være slik:

La oss anta at vi gjennomfører en test på 500 norske skoler. På hver skole tester vi 100 tilfeldig valgte elever. Vi antar at elevenes evner har et gjennomsnitt på 489 poeng med et standardavvik på 90 poeng (det samme som i Pisa 2012).

Resultatene ble slik: På den beste skolen, Fremtiden, var gjennomsnittlig score 515, mens elevene på Gapestokken skole bare fikk en gjennomsnittlig score på 463.

Gjennomsnittlig score for de 500 skolene ble som ventet 489 poeng med et standardavvik på ni poeng.

Hvordan bør Fremtiden premieres, og hvilke tiltak bør en iverksette overfor Gapestokken skole?

Jeg håper jeg tar feil, men jeg er redd nesten samtlige deltagere ville trukket feil konklusjon. Ikke fordi de var kunnskapsløse, men fordi oppgaven er mye mer krevende enn det som syns på overflaten.

Grovt sett gjetter jeg at svarene ville dele seg i fire grupper.

- Gruppe 1: Disse ville mene at tallene taler for seg selv, og at det ikke trengs noen avanserte metoder for å analysere svarene. Lærerne på Fremtiden skole bør premieres med høyere lønn, og en gruppe med spesialister bør vurdere strakstiltak på Gapestokken skole.

- Gruppe 2: Disse ville gjennomført en såkalt t-test, og funnet ut at resultatene på Fremtiden og Gapestokken er sterkt signifikant forskjellig fra gjennomsnittet. De ville være usikre på om Fremtiden bør premieres. Gode resultater er vel en premie i seg selv? Strakstiltak bør imidlertid iverksettes på Gapestokken skole, for slik kan vi ikke ha det!

- Gruppe 3: Denne gruppen ville mene at vi ikke kan henge ut skoler på denne måten. Resultatet på Gapestokken skole er trist, og denne skolen trenger hjelp for å komme ut av uføret.

- Gruppe 4: En liten gruppe av eksentrikere ville hevde at vi ikke kan vite noe sikkert fra undersøkelsen. De ville naturligvis bli fullstendig ignorert. Trolig har de studert Descartes, og sverger til prinsippet om metodisk, systematisk tvil. Noen mennesker tror jo fremdeles at jorda er flat.

De fleste som konfronteres med problemstillinger av denne typen vil oppleve den korrekte analysen som skjellsettende. Tallene i oppgaven er ikke valgt tilfeldig. Hvis vi antar at alle skoler er nøyaktig like gode, har nøyaktig like gode lærere og undervisningsopplegg, og har samme sjanse som alle andre til å tiltrekke seg mer eller mindre talentfulle elever, så vil den mest sannsynlige maksimumsverdien bli nettopp 515 og den mest sannsynlige minimumsverdien bli 463.

Tallene i undersøkelsen er resultatet av et rendyrket lotteri der skolene er prisgitt hvilke elever som trekkes ut til å delta/være elev på skolen.

Dette er ikke rette plassen for å forklare i detalj hvorfor denne konklusjonen blir akkurat slik. Jeg nevner likevel i en bisetning at premissene for bruk av t-testen jeg nevnte under gruppe to ikke er oppfylt, og at en slik test derfor leder til feil konklusjon. Det er en klassisk feil jeg er redd gjøres mange ganger daglig.

Jeg har ikke som intensjon å henge ut noen som trekker feil konklusjon på spørsmålet jeg har stilt. I en ikke altfor fjern fortid, ville jeg trolig selv trådt feil. Poenget er at slike analyser er så krevende at selv spesialister ofte blir spilt ut over sidelinjen, og at det i mange situasjoner er det fortvilet vanskelig å skille reelle forskjeller fra tilfeldig variasjon.

Noen vil selvsagt innvende at hvis vi skal tenke så vanskelig, blir det jo altfor komplisert å gjennomføre helt vanlige undersøkelser. Svaret på det er nettopp, så vanskelig er det og så vanskelig bør det være å trekke en riktig konklusjon. Vi kan ikke endre på det, for jorda er ikke flat.

Så neste gang du leser en artikkel der resultatene rangeres, tenk på paradokset over, og tro om du ikke da vil ha et mer edruelig forhold til det som blir skrevet.