Naar inhoud springen

Statistiek

Uit Wikipedia, de vrije encyclopedie
Deel van eenserieartikelen over
Wiskunde
Formules van een stochastisch proces
Formules van eenstochastisch proces
Kwantiteit

Complex getal·Geheel getal·Natuurlijk getal·Oneindigheid·Reëel getal·Rekenkunde

Structuurenruimte

Algebra·Functie·Getaltheorie·Goniometrie·Groepentheorie·Meetkunde·Topologie

Verandering

Analyse·Chaostheorie·Differentiaalrekening·Dynamische systemen·Vectoren

Toegepaste wiskunde

Discrete wiskunde·Grafentheorie·Informatietheorie·Kansrekening·Statistiek·Wiskundige natuurkunde

PortaalPortaalicoon Wiskunde

Statistiekis de wetenschap en de techniek van het verzamelen, bewerken, interpreteren en presenteren vangegevens.[1]Statistische methoden worden gebruikt om grote hoeveelheden gegevens, zoals uit een geneeskundig, industrieel of sociaal onderzoek, om te zetten in bruikbare informatie. De principes van de statistiek komen voort uit de regels van dewiskundeen de wetten van delogica.Statistiek sluit in dat de gemeten gegevens voor een belangrijke deel doortoevalzijn ontstaan. Toeval en onzekerheid worden binnen deze theorie met behulp van dekansrekeninggemodelleerd.

Statisticitrachten informatie over eenpopulatiete krijgen uit de waarneming van een meestal beperkt aantal elementen van die populatie, desteekproef.In het geval dat de steekproef de gehele populatie omvat, spreekt men van volledige telling (census,volkstelling). De verkregen informatie is echter bijna altijd onvolledig en daardoor onnauwkeurig. Een goede beheersing van deze onnauwkeurigheid is dan ook een essentieel onderdeel van de statistiek. De uitkomsten kunnen voor allerlei aspecten van de wetenschap, depolitiek,deeconomie,depsychologieensociologie,demediaen de samenleving van belang zijn.

Het woord "statistiek" is afkomstig van de moderneLatijnsezinstatisticum collegium,wat 'les over staatszaken' betekent. Hiervan is het Italiaanse woordstatistaafgeleid, dat "staatsman" of "politicus" betekent – vergelijk het woord stand van zaken – evenals het DuitseStatistik,dat oorspronkelijk destaathuishoudingbetekende, opgezet doorHermann Conringen bekend geworden doorGottfried Achenwall.

De statistiek als gespecialiseerd vakgebied is een 20ste-eeuws gegeven, maar specifieke activiteiten van wiskundig-statistische aard vonden plaats vanaf 1750, toen astronomen en landmeters verschillende waarnemingen begonnen te combineren om een nauwkeuriger resultaat te krijgen. Voor die tijd bestaan al voorbeelden van wetenschappers die een waarneming herhalen om de nauwkeurigheid te vergroten, maar zij zouden er steeds zorg voor dragen dat de opeenvolgende waarnemingen steeds in identieke omstandigheden plaatsvonden, en dus dezelfde intrinsieke nauwkeurigheid vertoonden; een minder nauwkeurige waarneming mocht de nauwkeuriger metingen niet "besmetten". Pas vanaf het midden van de 18de eeuw werden systematische methoden gebruikt om waarnemingen met verschillende nauwkeurigheid te combineren. Zo verkreeg men eengemiddeldewaarvan de nauwkeurigheid alle afzonderlijke waarnemingen overtreft. Een vroeg voorbeeld is het onderzoek vanJacques Cassininaar de verandering van de hellingshoek van deevenaarten opzichte van deeclipticadoor het vergelijken van historische waarnemingen over 2000 jaar. Hij maakt gebruik van statistische argumenten om te concluderen dat die verandering niet uniform verloopt.[2]

Francis Galtonintroduceerde de termencorrelatieenregressie.[3]

De volgende stap in de ontwikkeling was de analyse vaninferentieof het onderzoek naar de betrouwbaarheid van hypothesen. In het postume werkArs conjectandi(1713) vanJakob Bernoulliwerd ditomgekeerde waarschijnlijkheidgenoemd: in de klassieke kansrekening zijn de kansen van elementaire gebeurtenissen bekend en tracht men de kansen van samengestelde gebeurtenissen te achterhalen; het omgekeerde probleem doet zich voor wanneer men door waarnemingen van complexe gebeurtenissen de (onbekende) onderliggende waarschijnlijkheden wil schatten. De eerste doorbraak op dit gebied kwam vanThomas Bayesin zijn eveneens postume verhandelingAn Essay towards solving a problem in the Doctrine of Chances(1764), waar uitspraken mogelijk worden over de waarschijnlijkheid van een gebeurtenis aan de hand van wat later hettheorema van Bayeszou heten. Een ander, gelijktijdig onderzoeksgebied was de analyse van fouten door onder meerThomas Simpson,Daniel Bernoulli,Joseph-Louis Lagrange,Carl Friedrich Gaussen vooralAdrien-Marie Legendre,uitvinder van dekleinste-kwadratenmethode.[4]

Karl Pearson,grondlegger van wiskundige statistiek

Vanaf de 19de eeuw werden statistische methoden toegepast op sociale wetenschappen, meer bepaald op bevolkingsstatistieken en op prijsindices. Pioniers warenAdolphe QueteletenWilliam Stanley Jevonsin de interpretatie van gemiddelden over verzamelingen van ongelijke individuen. Wilhelm Lexis,Francis GaltonenFrancis Ysidro Edgeworthconfronteerden micro-modellen, waarin de variaties van individuele leden van de populatie worden opgeteld, met macro-modellen, waarin de populatie zelf wordt gekenmerkt door statistische parameters zoals een normale verdeling. Een dramatisch hoogtepunt van deze nieuwe toepassingen van de statistiek was het publieke debat, in persartikels in de jaren 1910-1911, overeugenetica,sociaal ongewenste eigenschappen en de invloed op kinderen van alcoholisme van hun ouders (dit was het startschot van het debat, in een artikel vanKarl Pearson).[5]

De moderne statistiek begint bijRonald Aylmer Fisher.Hoewel opgeleid als sterrenkundige ging hij werken als bioloog bij een instituut voor landbouwkundig onderzoek. In 1925 publiceerde hijStatistical Methods for Research Workers,waarin hij een groot aantal wiskundige vraagstukken behandelde die in de statistische praktijk opduiken, met name in verband met de wiskundige analyse van genetische problemen. Ook nieuw was zijn analyse van de omstandigheden waarin een klein aantal metingen relatief betrouwbare conclusies kan opleveren. Hij was sterk geïnteresseerd in allerlei significantietesten en, nauw daarmee verbonden, het systematisch ontwerp van experimenten. Een bekende populaire publicatie van zijn hand over dit onderwerp isMathematics of a Lady Tasting Tea,waarin hij met een zo klein mogelijk aantal waarnemingen wil nagaan of een persoon in staat is vast te stellen of de melk voor of na de thee in het kopje is gegoten.[6]

Traditioneel onderscheidt men in de statistiek de deelgebieden beschrijvende statistiek, inductieve statistiek en exploratieve statistiek.

Beschrijvende statistiek

[bewerken|brontekst bewerken]

De beschrijvende statistiek houdt zich in principe bezig met de beschrijving van bepaalde gegevens van eenpopulatie.Als voorbeeld kan men denken aan eenvolkstellingofproductiestatistiek.De gegevens worden geordend en gereduceerd, indien gewenst tot relevantekengetallen.In overzichtelijketabellen,grafiekenenfigurenendiagrammen,zoalshistogrammen,staaf- enlijndiagrammen,dendrogrammenenordinogrammenworden ten slotte de gegevens gepresenteerd. Een belangrijk deel van het werk van hetCentraal Bureau voor de Statistiekbetreft dit deelgebied.

Inductieve statistiek

[bewerken|brontekst bewerken]

In de inductieve statistiek tracht men aan de hand van een steekproef informatie omtrent de gehele populatie te verkrijgen. Om allerlei redenen kan het ongewenst of onmogelijk zijn de hele populatie te onderzoeken. In plaats daarvan onderzoekt men een deel van de populatie: de steekproef. Men verkrijgt zo echter slechts beperkte informatie over de populatie. De inductieve statistiek geeft geschikte methoden en onderzoekt de kwaliteit daarvan. Bekende methoden zijntoetsen,schattingsmethodenen als combinatie van beide:betrouwbaarheidsintervallen.

Exploratieve statistiek

[bewerken|brontekst bewerken]

Daarnaast is een soort tussenvorm van beide bovenstaande deelgebieden ontstaan: de exploratieve statistiek. Anders dan in de inductieve statistiek, waar uitgegaan wordt van goed gedefinieerde steekproeven, gaat men in de exploratieve statistiek uit van voorhanden zijnde data. Op deze data worden methoden van de beschrijvende statistiek alsook van de inductieve statistiek toegepast met als nadeel dat men over de verdelingen vaak weinig kan zeggen. Daarnaast worden speciale technieken voor dit onderzoeksterrein ontwikkeld.

Populatie en steekproef

[bewerken|brontekst bewerken]

Een belangrijk begrippenpaar in de statistiek ispopulatieensteekproef.Men dient steeds goed te onderscheiden of men over de populatie (verdeling) spreekt dan wel over de steekproef. De populatie is over het algemeen slechts in formele zin gegeven in termen van eenkansverdelingmet enkele onbekendeparameters.Het zijn deze parameters die men graag zou kennen, maar om uiteenlopende redenen niet kent. Een steekproef verschaft informatie over de parameters, door het geven van eenschatting,hettoetsenvan een hypothese over een parameter, e.d. Zo is er het populatiegemiddelde, meestal onbekend, en als schatting daarvan het steekproefgemiddelde. Evenzo is de steekproefvariantie een schatting van de populatievariantie, enzovoorts.

Doordat de uitkomst van een steekproef meestal sterk door hettoevalbepaald wordt, maakt de statistiek veel gebruik van dekansrekening.

Binnen de inductieve statistiek zijn er twee stromingen te onderscheiden:

Het essentiële verschil is dat de klassieke statistici ervan uitgaan dat de parameters van de verdelingen die onderzocht worden, een vaste, zij het onbekende, ware waarde hebben. Door middel van statistisch onderzoek probeert men deze waarde te benaderen viaschattingen,toetsenenbetrouwbaarheidsintervallen.

De Bayesianen geloven niet in een "ware" waarde en staan toe dat de parameters zelfstochastische variabelenzijn, met een meestal onbekende verdeling. Wel wordt tevoren een veronderstelling over de verdeling gemaakt; de veronderstelde verdeling heet a-prioriverdeling. Hierdoor kan hettheorema van Bayestoegepast worden. Gevolgen hiervan zijn onder meer dat informatie, ook subjectieve informatie, van buiten de steekproef ingebracht kan worden. Verder betekent het dat de interpretatie van de uitkomsten fundamenteel wijzigt.

Stochastische variabelen en modelveronderstellingen

[bewerken|brontekst bewerken]

Een centraal begrip in de statistiek is dat van destochastische variabele.Deze grootheid vertegenwoordigt in feite de populatieverdeling of de betrokken modelmatige kansverdeling. De steekproefuitkomsten vat men op als waarnemingen aan deze grootheid.

De basisveronderstelling bij een statistische analyse over de betrokken verdeling, is daarmee een veronderstelling omtrent de verdeling van de betrokken stochastische variabele; de veronderstelde verdeling wordt het "model" genoemd.

Als men bijvoorbeeld met een zuivere dobbelsteen gooit, veronderstelt men dat de waarden die men krijgt, metingen zijn van een stochastische veranderlijke die met kans 1/6 elk van de getallen 1 tot en met 6 aanneemt. Twijfelt men aan de zuiverheid van de dobbelsteen, dan neemt men aan dat een uitkomstiwordt aangenomen met kans.Deze onbekende kansen zijn de in het geding zijnde parameters.

Onderwerpen van de beschrijvende statistiek

[bewerken|brontekst bewerken]

Onderwerpen op het gebied van toetsen

[bewerken|brontekst bewerken]

Statistische gegevens worden regelmatig op een onjuiste manier gebruikt, al dan niet opzettelijk. ZieMisbruik van statistische gegevens.