Naar inhoud springen

Statistische toets

Uit Wikipedia, de vrije encyclopedie

Eenstatistische toetsis een methode om na te gaan of een bepaalde veronderstelling,nulhypothesegenaamd, in het licht van de waarnemingsuitkomsten verworpen dient te worden. (De methode is vergelijkbaar met het zogenaamdebewijs uit het ongerijmde.) Kan de veronderstelling niet worden verworpen dan zegt men wel dat men deze accepteert, zij het "bij gebrek aan bewijs". De gemaakte veronderstelling wordt verworpen als de waarnemingsuitkomsten in het licht van deze veronderstelling als extreem aangemerkt moeten worden, hetgeen populair gezegd erop neerkomt dat de waargenomen verschillen met wat verwacht was niet meer optoevallijken te berusten. De genoemde veronderstelling betreft meestal het verschil tussen groepen (vaakcontrole-en experimentele groep) of verschil van nieuwe situatie met oude, enzovoort. Een statistische toets kan men geheel vergelijken met eenrechtszaak,wat in het volgende voorbeeld ook gedaan zal worden.

Een dobbelaar denkt dat de gebruiktedobbelsteenniet "eerlijk" is, en wel zo dat de 6 minder vaak bovenkomt dan 1 op de 6 keren zoals zou moeten. Hij maakt de veronderstelling (nulhypothese) dat de dobbelsteen eerlijk is en hoopt door vaak met de dobbelsteen te gooien zoveel bewijs tegen deze veronderstelling te vinden, dat hij deze kan verwerpen. De kans op 6 noemt hij voor het gemak p. Denulhypothese(aangeduid met) luidt dus:

(rechtszaak: p staat terecht, voorlopig wordt p onschuldig geacht)

De dobbelaar denkt dat de 6 minder vaak bovenkomt, zodat dealternatieve hypothese() is:

(rechtszaak: p is schuldig)

Nu moet, net als bij de rechtszaak, bewijs verzameld worden: de dobbelaar gooit 600 keer met de dobbelsteen (hij neemt eensteekproef). Als hij 100 keer 6 gooit heeft hij geen reden omte verwerpen, ook niet bij 99 keer en bij 98 keer. Dit zijn immers geen extreme uitkomsten bij een eerlijke dobbelsteen. (Er is te weinig bewijs voor de schuld van p.) Gooit hij daarentegen 0 of 1 keer een 6, dan kan dit weliswaar gebeuren bij een eerlijke dobbelsteen, maar is dat zo'n extreme uitkomst dat hij niet gelooft dat de dobbelsteen eerlijk is: hij verwerpt de nulhypothese (ten gunste van de alternatieve). (Er is voldoende bewijs tegen p om hem te veroordelen.)

Wat echter als hij 80 keer 6 gooit, of 72 keer? Zijn dit voor een eerlijke dobbelsteen extreme waarden of niet? Met kansrekening kan de dobbelaar berekenen dat voor een eerlijke dobbelsteen slechts in ca. 1% van de gevallen minder dan 80 van de 600 keer 6 wordt gegooid. Als hij de nulhypothese verwerpt bij minder dan 80 keren 6, dan loopt hij welbewust het risico om in 1% van de gevallen dat hij deze procedure toepast en met een eerlijke dobbelsteen te maken heeft, deze toch als niet eerlijk bestempelt. (De onschuldige verdachte p wordt ten onrechte veroordeeld!) Een dergelijke verkeerde beslissing heetfout van de eerste soorten de kans op een dergelijke fout, hier 1%, heetonbetrouwbaarheid.

Hij kan kritischer zijn en als onbetrouwbaarheid bv. 0,1% kiezen. Dan zal hij de nulhypothese pas verwerpen bij 72 of minder keren 6. Ook kan hij minder kritisch zijn en als onbetrouwbaarheid 5% nemen; hij verwerpt dan de nulhypothese al bij 84 of minder keren 6.

Wat nu als de dobbelsteen inderdaad niet eerlijk is en slechts 1 op de 8 keer 6 gooit. Zal de dobbelaar dat ontdekken? Als de onbetrouwbaarheid 1% is, ontdekt hij de oneerlijkheid als hij minder dan 80 keer 6 gooit. Voor de bedoelde dobbelsteen is de kans daarop ca. 88%. Deze kans heetonderscheidend vermogenbij de genoemde succeskans van 1/8. Dat betekent echter ook dat nog met een kans van 12% de verkeerde beslissing wordt genomen,fout van de tweede soortgenaamd.

Een statistische toets verloopt in principe steeds langs dezelfde lijnen, die we aan de hand van het bovengenoemde voorbeeld hier zullen uiteenzetten.

1. Probleemstelling

[bewerken|brontekst bewerken]

Hierin wordt de betrokkenverdelinggenoemd en de steekproef.

We werpen 600 keer met een dobbelsteen. Het aantal keren dat 6 bovenkomt noemen we.Destochastische variabeleis-verdeeld, met onbekende parameter.

Specificeer de nul- en de (eventuele) alternatieve hypothese.

We toetsen
tegen

3. Toetsingsgrootheid

[bewerken|brontekst bewerken]

Vermeld detoetsingsgrootheid().

Als toetsingsgrootheid nemen we.

4. Verdeling onder de nulhypothese

[bewerken|brontekst bewerken]

Specificeer de verdeling van de toetsingsgrootheid onder de nulhypothese.

Onderisbinomiaal verdeeldmet parametersen succeskans.Omdatzo groot is, kan deze verdeling beschouwd worden als een normale metverwachtingenvariantie,dus destandaardafwijkingis de vierkantswortel daarvan, 9,13.

5. Steekproefuitkomst

[bewerken|brontekst bewerken]

Bereken de waardedie de toetsingsgrootheid bij de steekproefuitkomst aanneemt.

In de steekproef werd 80 keer 6 gegooid, dus voorde waardegevonden.
De waargenomen waardevan de toetsingsgrootheid is dus:

6. Kritiek gebied

[bewerken|brontekst bewerken]

Geef aan voor welke waarde van de toetsingsgrootheid de nulhypothese wordt verworpen.

We verwerpen de nulhypothese voor kleine waarden van,zeg voor.
De kritieke waardevolgt uit de eis dat:
,
waarinde vooraf gekozenonbetrouwbaarheidsdrempelis.
Voor bijvoorbeeldwordt dit:
,
waarinde zogenaamdeZ-scoreis, de onder de nulhypothese gestandaardiseerde toetsingsgrootheid. Omdat voor grote steekproefomvang,en dus ook,bij benaderingnormaal verdeeldis, en,volgt

6a. Overschrijdingskans

[bewerken|brontekst bewerken]

Als alternatief voor punt 6 kunnen we ook deoverschrijdingskansvan de gevonden waardevanberekenen.

Omdat we de nulhypothese verwerpen voor kleine waarden vanbepalen we de linker overschrijdingskans van de waargenomen waarde:

De gevonden waardeligt in hetkritieke gebied,dus we verwerpen de nulhypothese. Of, alternatief: de overschrijdingskans is 0,014, dus veel kleiner dan de onbetrouwbaarheidsdrempel 0,05; we verwerpen de nulhypothese.

Bekende toetsen

[bewerken|brontekst bewerken]

Bekende statistische toetsen zijnchi-kwadraat,t-toetsenF-toets.

Er wordt een onderscheid gemaakt tussenparametrischeenparametervrije of verdelingsvrijetoetsen.

Zie ook:significantieenp-waarde