Statistische toets

Eenstatistische toetsis een methode om na te gaan of een bepaalde veronderstelling,nulhypothesegenaamd, in het licht van de waarnemingsuitkomsten verworpen dient te worden. (De methode is vergelijkbaar met het zogenaamdebewijs uit het ongerijmde.) Kan de veronderstelling niet worden verworpen dan zegt men wel dat men deze accepteert, zij het "bij gebrek aan bewijs". De gemaakte veronderstelling wordt verworpen als de waarnemingsuitkomsten in het licht van deze veronderstelling als extreem aangemerkt moeten worden, hetgeen populair gezegd erop neerkomt dat de waargenomen verschillen met wat verwacht was niet meer optoevallijken te berusten. De genoemde veronderstelling betreft meestal het verschil tussen groepen (vaakcontrole-en experimentele groep) of verschil van nieuwe situatie met oude, enzovoort. Een statistische toets kan men geheel vergelijken met eenrechtszaak,wat in het volgende voorbeeld ook gedaan zal worden.

Voorbeeld

Een dobbelaar denkt dat de gebruiktedobbelsteenniet "eerlijk" is, en wel zo dat de 6 minder vaak bovenkomt dan 1 op de 6 keren zoals zou moeten. Hij maakt de veronderstelling (nulhypothese) dat de dobbelsteen eerlijk is en hoopt door vaak met de dobbelsteen te gooien zoveel bewijs tegen deze veronderstelling te vinden, dat hij deze kan verwerpen. De kans op 6 noemt hij voor het gemak p. Denulhypothese(aangeduid met ${\text{H}}_{0}$ ) luidt dus:

{\text{H}}_{0}:p={\tfrac {1}{6}}

(rechtszaak: p staat terecht, voorlopig wordt p onschuldig geacht)

De dobbelaar denkt dat de 6 minder vaak bovenkomt, zodat dealternatieve hypothese( ${\text{H}}_{1}$ ) is:

{\text{H}}_{1}:p<{\tfrac {1}{6}}

(rechtszaak: p is schuldig)

Nu moet, net als bij de rechtszaak, bewijs verzameld worden: de dobbelaar gooit 600 keer met de dobbelsteen (hij neemt eensteekproef). Als hij 100 keer 6 gooit heeft hij geen reden om ${\text{H}}_{0}$ te verwerpen, ook niet bij 99 keer en bij 98 keer. Dit zijn immers geen extreme uitkomsten bij een eerlijke dobbelsteen. (Er is te weinig bewijs voor de schuld van p.) Gooit hij daarentegen 0 of 1 keer een 6, dan kan dit weliswaar gebeuren bij een eerlijke dobbelsteen, maar is dat zo'n extreme uitkomst dat hij niet gelooft dat de dobbelsteen eerlijk is: hij verwerpt de nulhypothese (ten gunste van de alternatieve). (Er is voldoende bewijs tegen p om hem te veroordelen.)

Wat echter als hij 80 keer 6 gooit, of 72 keer? Zijn dit voor een eerlijke dobbelsteen extreme waarden of niet? Met kansrekening kan de dobbelaar berekenen dat voor een eerlijke dobbelsteen slechts in ca. 1% van de gevallen minder dan 80 van de 600 keer 6 wordt gegooid. Als hij de nulhypothese verwerpt bij minder dan 80 keren 6, dan loopt hij welbewust het risico om in 1% van de gevallen dat hij deze procedure toepast en met een eerlijke dobbelsteen te maken heeft, deze toch als niet eerlijk bestempelt. (De onschuldige verdachte p wordt ten onrechte veroordeeld!) Een dergelijke verkeerde beslissing heetfout van de eerste soorten de kans op een dergelijke fout, hier 1%, heetonbetrouwbaarheid.

Hij kan kritischer zijn en als onbetrouwbaarheid bv. 0,1% kiezen. Dan zal hij de nulhypothese pas verwerpen bij 72 of minder keren 6. Ook kan hij minder kritisch zijn en als onbetrouwbaarheid 5% nemen; hij verwerpt dan de nulhypothese al bij 84 of minder keren 6.

Wat nu als de dobbelsteen inderdaad niet eerlijk is en slechts 1 op de 8 keer 6 gooit. Zal de dobbelaar dat ontdekken? Als de onbetrouwbaarheid 1% is, ontdekt hij de oneerlijkheid als hij minder dan 80 keer 6 gooit. Voor de bedoelde dobbelsteen is de kans daarop ca. 88%. Deze kans heetonderscheidend vermogenbij de genoemde succeskans van 1/8. Dat betekent echter ook dat nog met een kans van 12% de verkeerde beslissing wordt genomen,fout van de tweede soortgenaamd.

Procedure

Een statistische toets verloopt in principe steeds langs dezelfde lijnen, die we aan de hand van het bovengenoemde voorbeeld hier zullen uiteenzetten.

1. Probleemstelling

Hierin wordt de betrokkenverdelinggenoemd en de steekproef.

We werpen 600 keer met een dobbelsteen. Het aantal keren dat 6 bovenkomt noemen we

X

.Destochastische variabele

X

is

B(600,p)

-verdeeld, met onbekende parameter

p

.

2. Hypothesen

Specificeer de nul- en de (eventuele) alternatieve hypothese.

We toetsen

{\text{H}}_{0}:p={\tfrac {1}{6}}

tegen

{\text{H}}_{1}:p<{\tfrac {1}{6}}

3. Toetsingsgrootheid

Vermeld detoetsingsgrootheid( $T$ ).

Als toetsingsgrootheid nemen we

T=X

.

4. Verdeling onder de nulhypothese

Specificeer de verdeling van de toetsingsgrootheid onder de nulhypothese.

Onder

\mathrm {H} _{0}

is

T

binomiaal verdeeldmet parameters

n=600

en succeskans

p=1/6

.Omdat

n

zo groot is, kan deze verdeling beschouwd worden als een normale metverwachting

np=100

envariantie

np(1-p)=83{,}33

,dus destandaardafwijkingis de vierkantswortel daarvan, 9,13.

5. Steekproefuitkomst

Bereken de waarde $t$ die de toetsingsgrootheid bij de steekproefuitkomst aanneemt.

In de steekproef werd 80 keer 6 gegooid, dus voor

X

de waarde

x=80

gevonden.

De waargenomen waarde

t

van de toetsingsgrootheid is dus:

t=x=80

6. Kritiek gebied

Geef aan voor welke waarde van de toetsingsgrootheid de nulhypothese wordt verworpen.

We verwerpen de nulhypothese voor kleine waarden van

T

,zeg voor

T\leq c

.

De kritieke waarde

c

volgt uit de eis dat:

P({\text{fout type I}})=\sup _{{\text{H}}_{0}}P({\text{verwerp H}}_{0})=\sup _{{\text{H}}_{0}}P(T\leq c)\leq \alpha _{0}

,

waarin

\alpha _{0}

de vooraf gekozenonbetrouwbaarheidsdrempelis.

Voor bijvoorbeeld

\alpha _{0}=5\%

wordt dit:

0{,}05\geq \sup _{{\text{H}}_{0}}P(T\leq c)=P(Z\leq {\frac {c-100}{9{,}13}})

,

waarin

Z=(T-100)/9{,}13

de zogenaamdeZ-scoreis, de onder de nulhypothese gestandaardiseerde toetsingsgrootheid. Omdat voor grote steekproefomvang

T

,en dus ook

Z

,bij benaderingnormaal verdeeldis, en

\Phi (1{,}65)=0{,}95

,volgt

c=100-9{,}13\times 1{,}65=85{,}0

6a. Overschrijdingskans

Als alternatief voor punt 6 kunnen we ook deoverschrijdingskansvan de gevonden waarde $t$ van $T$ berekenen.

Omdat we de nulhypothese verwerpen voor kleine waarden van

T

bepalen we de linker overschrijdingskans van de waargenomen waarde

t

:

\sup _{{\text{H}}_{0}}P(T\leq t)=\sup _{{\text{H}}_{0}}P(T\leq 80)=P\left(Z\leq {\frac {80-100}{9{,}13}}\right)=\Phi (-2{,}19)=0{,}014

7. Conclusie

De gevonden waarde $t=80$ ligt in hetkritieke gebied,dus we verwerpen de nulhypothese. Of, alternatief: de overschrijdingskans is 0,014, dus veel kleiner dan de onbetrouwbaarheidsdrempel 0,05; we verwerpen de nulhypothese.

Bekende toetsen

Bekende statistische toetsen zijnchi-kwadraat,t-toetsenF-toets.

Er wordt een onderscheid gemaakt tussenparametrischeenparametervrije of verdelingsvrijetoetsen.

Zie ook:significantieenp-waarde