Korelacija

Izvor: Wikipedija
Prijeđi na navigaciju Prijeđi na pretragu

Korelacija(lat.con= sa,relatio= odnos) predstavlja suodnos ili međusobnu povezanost između različitih pojava predstavljenih vrijednostima dvaju varijabli. Pri tome povezanost znači da je vrijednost jedne varijable moguće sa određenom vjerojatnošću predvidjeti na osnovu saznanja o vrijednosti druge varijable. Klasični primjeri povezanosti su npr. saznanje o utjecaju količine padalina na urodžitarica,o povezanosti slanehranei visokogkrvnog tlakai sl. Promjena vrijednosti jedne varijable utječe na promjenu vrijednosti druge varijable. Varijabla koja svojom vrijednošću utječe na drugu varijablu naziva seneovisna varijabla.Varijabla na koju se utječe naziva seovisna varijabla. Npr. unošenje višesoliu organizamutječena porast krvnog tlaka, dok porast krvnog tlakane utječena povećanje unošenja soli u organizam. U ovom primjeru unošenje soli u organizam je neovisna varijabla, a povećanje krvnog tlaka je ovisna varijabla. Mogući su slučajevi da dvije varijable istovremeno utječu jedna na drugu, pa su u tom slučaju obje varijable istovremeno i ovisne i neovisne.

Odnos između varijabli

[uredi|uredi kod]

Međusoban odnos između dvije varijable, grafički možemo prikazati pomoću dvodimenzionalnoggrafa,tzv.scatter dijagram(dijagrama raspršenja). Vrijednosti jedne varijable prikazane su naxosi, a druge nayosi dijagrama. Točke presjeka kreću se oko određenogpravcakoji se naziva linijaregresije.Što su točke bliže pravcu, korelacija je veća. Što su točke raspršenije korelacija je manja. U praksi je vizualno vrlo teško, osim u slučaju »savršene« korelacije odrediti stupanj povezanosti između varijabli. Ovisno o međusobnom odnosu dvaju varijabli među kojima postoji korelacija, ona može biti linearna ili nelinearna. Kodlinearne korelacije,točke su grupirane oko pravca. Kodnelinearne korelacije,točke su grupirane oko neke druge krivulje.

Dvije varijable koje promatramo sa ciljem utvrđivanja njihove korelacijske povezanosti mogu biti u 4 različita odnosa:

  1. kada mala vrijednost jedne varijable odgovara maloj vrijednosti druge varijable, kao i kada velika vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable, radi se o pozitivnoj korelaciji.
  2. kada mala vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable i obratno, radi se o negativnoj korelaciji.
  3. kada vrijednost jedne varijable u nekim intervalima odgovara maloj vrijednosti druge varijable, a u drugim intervalima velikoj vrijednosti, radi se onemonotonoj korelaciji.Ako se korelacija više nego jednom mijenja od pozitivne prema negativnoj, takva korelacija naziva seciklička korelacija.
  4. kada se na osnovu vrijednosti jedne varijable ne može zaključiti ništa o vrijednosti druge varijable, tadakorelacija ne postoji.Točke u takvomgrafusu raspršene.

Koeficijenti korelacije

[uredi|uredi kod]

Koeficijentikorelacije izražavaju mjeru povezanosti između dvije varijable u jedinicama neovisnima o konkretnim jedinicama mjere u kojima su iskazane vrijednosti varijabli. Postoji više koeficijenata korelacije koji se koriste u različitim slučajevima. U praksi se prilikom rada s linearnim modelima najčešće koristiPearsonov koeficijent korelacije(produkt moment koeficijent korelacije).Prilikom rada s modelima koji nisu linearni najčešće se koristiSpearmanov koeficijent korelacije(produkt rang koeficijent korelacije).

Pearsonov koeficijent korelacije

[uredi|uredi kod]

Pearsonov koeficijent korelacije koristi se u slučajevima kada između varijabli promatranog modela postoji linearna povezanost i neprekidnanormalna distribucija. Vrijednost Pearsonovog koeficijenta korelacije kreće se od +1 (savršena pozitivna korelacija) do –1 (savršena negativna korelacija). Predznak koeficijenta nas upućuje na smjer korelacije – da li je pozitivna ili negativna, ali nas ne upućuje na snagu korelacije. Pearsonov koeficijent korelacije bazira se na usporedbi stvarnog utjecaja promatranih varijabli jedne na drugu u odnosu na maksimalni mogući utjecaj dviju varijabli. Označava se malim latiničkimslovomr. Za izračun koeficijenta korelacije potrebna su tri različite sume kvadrata(SS):suma kvadrata varijableX,suma kvadrata varijableYi suma umnožaka varijabliXiY.

Suma kvadrata varijableXjednaka je sumi kvadrata odstupanja vrijednosti varijableXod njezine prosječne vrijednosti:

Prosječna vrijednost varijableXjednaka je:

Suma kvadrata varijableYjednaka je sumi kvadrata odstupanja vrijednosti varijableYod njezine prosječne vrijednosti:

Prosječna vrijednost varijableYjednaka je:

Suma umnožaka varijabliXiYjednaka je sumi umnožaka odstupanja vrijednosti varijabliXiYod njihovih prosjeka:

Koeficijent korelacije jednak je omjeru:

U slučaju da među varijablama ne postoji linearna povezanost, može se provesti odgovarajuća transformacija kojom se vrijednosti varijabli modela svode na linearne.

Spearmanov koeficijent korelacije

[uredi|uredi kod]

Spearmanov koeficijent korelacije (produkt rang korelacije) koristi se za mjerenje povezanosti između varijabli u slučajevima kada nije moguće primjenitiPearsonov koeficijent korelacije.Bazira se na tome da se izmjeri dosljednost povezanosti između poredanih varijabli, a oblik povezanosti (npr. linearni oblik koji je preduvjet za korištenje Pearsonovog koeficijenta) nije bitan. Slučajevi u kojima se koristi Spearmanov koficijent su npr. kada među varijablama ne postoji linearna povezanost, a nije moguće primjeniti odgovarajuću transformaciju kojom bi se povezanost prevela u linearnu (npr. veza između seizmičkog atributa i bušotinskog podatakaunaftnoj geologiji). Spearmanov koeficijent korelacije kao rezultat daje približnu vrijednost koeficijenta korelacije koji se tretira kao njegova dovoljno dobraaproksimacija. Prilikom korištenja Spearmanovog koeficijenta, vrijednosti varijabli potrebno je rangirati i na takav način svesti na zajedničku mjeru. Najjednostavniji način rangiranja je da se najmanjoj vrijednosti svake varijable pridjeli rang 1, slijedećoj po veličini rang 2 i tako sve do posljednje kojoj se pridjeljuje maksimalan rang. Izračunavanje koeficijenta radi se korištenjem vrijednosti pridijeljenih rangova. Spearmanov koeficijent označavati ćemo sarS.

Formula za izračun Spearmanovog koeficijenta korelacije je:

gdje jedrazlika vrijednosti rangova dvije promatrane varijable, anje broj različitih serija.

Matrica korelacije

[uredi|uredi kod]

Ponekad nam u istraživanju nije dovoljna informacija o korelaciji dvije promatrane varijable, već nas zanima na koji način više varijabli međusobno utječe jedna na drugu. Nakon što se promatranjem međusobnog odnosa svih parova dvaju varijabli utvrdi njihova međusobna korelacija, izrađuje sematrica korelacije.Retci i stupci matrice predstavljaju promatrane varijable, a podatak na presjeku određenog retka i stupca predstavljakoeficijent korelacijeizmeđu varijabli u odgovarajućem retku i stupcu.Matricana dijagonali ima podatak 1 (pošto je svaka varijabla sama sa sobom u potpunoj korelaciji). Dobivena matrica je simetrična - podaci iznad i ispod dijagonale za isti par varijabli su identični. Zbog tih svojstava matrica je redundantna i dovoljno je promatrati jedan njezin dio, iznad dijagonale ili ispod dijagonale. Vizualno možemo utvrditi u kojoj mjeri su dvije pojedinačne varijable u korelaciji, koje varijable u međusobnom odnosu imaju najveći ili najmanji koeficijent korelacije, te koji skupovi varijabli se ističu sličnim koeficijentima. Vizualno ne možemo utvrditi na koji način i u kolikoj mjeri više varijabli zajednički utječe na drugu pojedinačnu varijablu.

Višestruka korelacija (multiple korelacija)

[uredi|uredi kod]

Višestruka korelacija jeanalitičkaprocedurakojom se utvrđuje na koji način više neovisnih varijabli utječe na jednu ovisnu varijablu. Koeficijent višestruke korelacije označava se velikim latiničnim slovomR. Za računanje koeficijenta višestruke korelacije potrebno je prvo izračunatikoeficijente korelacijeizmeđu svakog para varijabli koje promatramo. Odnos koeficijenata korelacije varijabli može se prikazatimatricom korelacije.Dobivene koeficijente potrebno je uvrstiti uformuluza izračun višestruke korelacije. Podaci višestruke korelacije kod koje se promatra međusobni utjecaj tri varijable može se prikazati trodimenzionalnimscatter dijagramom.

Formulaza izračun višestruke korelacije kada promatramo utjecaj dvije neovisne varijable na treću, ovisnu, je slijedeća:

Neovisne varijable čije vrijednosti promatramo označene su saX1iX2,a ovisna varijabla označena je saY. Koeficijent višestruke korelacije poprima vrijednost od –1 do +1, i u njegovoj interpretaciji primjenjuju se ista pravila kao kod interpretiranja koeficijenta jednostavne korelacije. Kako bi izračun višestruke korelacije bio što precizniji, potrebno je koristiti veći uzorak sa više vrijednosti varijabli nego u slučaju izračuna koeficijenata kod jednostavne korelacije.

Računanje korelacije

[uredi|uredi kod]

Prilikom utvrđivanja korelacije dvaju varijabli, vrlo je važno na ispravan način izabrati varijable koje se promatraju. Vrijednosti varijabli bi trebale biti izabrane iz slučajnogaskupa.Što je veći broj varijabli koje se promatraju, to će rezultati biti precizniji. Povećanje broja promatranih vrijednosti varijabli može u velikoj mjeri promijeniti rezultate izračuna.

Outlieri

[uredi|uredi kod]

Prilikom računanja korelacije varijabli, potrebno je obratiti pažnju na tzv.outliere.To su vrijednosti varijabli koje u velikoj mjeri odstupaju od ostalih. Zbog načina računanja linijeregresije,usamljenioutlierimogu u velikoj mjeri promijeniti rezultate. Stoga je potrebno prilikom izračunavanja korelacije donijeti odluku o tome da li je možda korisnije takve outliere isključiti i njihove vrijednosti ne koristiti prilikom izračunavanja korelacije. U tom slučaju outliere tretiramo kao greške koje se događaju prilikom određivanja uzorka.Outliereje najlakše uočiti promatrajućiscatterdijagram i tražeći vrijednosti varijabli koje neuobičajeno odstupaju od linijeregresije.Odluka o pronalaženju i uklanjanju outliera se s dosta velikom sigurnošću može donijeti kada imamo velik uzorak, a brojoutlieraje vrlo mali. U slučaju malog uzorka ne možemo biti sigurni da li se radi ooutlierima,ili su te vrijednosti dio regularnog skupa podataka.

U određenim slučajevima za pronalaženje i uklanjanjeoutlierakoriste se odgovarajućekvantitativne metode(npr. uklanjanje svih uzoraka koji odstupaju više od ±2standardne devijacijeod prosjekagrupe). Takvo drastično čišćenje podataka u nekim područjima istraživanjaje je nužno kako bi se dobili ispravni podaci. Za pronalaženje i uklanjanjeoutlierane postoje opće prihvaćene metode i pravila tako da je to u potpunosti subjektivno i ovisi isključivo o odluci istraživača u određenoj situaciji.

Primjena korelacije

[uredi|uredi kod]

Rezultati korelacije imaju brojne praktičke primjene, ali se ni u kojem slučaju ne bi smjeli samo na osnovu rezultata utvrđene korelacije donositi zaključci o uzročno-poljedičnoj vezi. Korelacija se ne bi trebala koristiti za donošenje zaključaka o uzročno-posljedičnoj vezi između dvije varijable pošto je velika vjerojatnost da će zaključak biti kriv. Čest slučaj je da se promatra odnos između dvije varijable koje su u korelaciji visokog stupnja. Međutim, postoji i skrivena treća varijabla koju bi također trebalo staviti u odnos sa promatrane dvije, kako bi se ispravno protumačio uzročno-posljedični odnos.

Jedan od klasičnih, u literaturi često spominjanih primjera, je pojava uočena uKopenhagenunekoliko godina poslije završetkaDrugog svjetskog rata.Zamijećena je korelacija između povećanja broja novorođenedjecei brojarodakoje su se gnijezdile u gradu. Ako bi se korelacija bez razmišljanja protumačila kao uzročno-posljedični odnos, moglo bi se zaključiti da rode donose djecu. Pravi uzrok leži u tome što se po završetku rata velik dio stanovništva saselapreselio ugrad,što je uzrokovalo povećanje broja stanovnika u gradu, a samim tim i povećanje broja novorođene djece. Istovremeno, za nove stanovnike grada izgradile su se nove kuće, tako da su i rode dobile veći broj dimnjaka za svoja gnijezda. Tu je dakle, postojala skrivena varijabla - broj stanovnika, koju je prilikom donošenje zaključka o uzročno-posljedičnoj vezi trebalo uzeti u obzir.

Naravno, ima i suprotnih primjera kada ne postoji skrivena varijabla. Vrlo rano je ustanovljena korelacija izmeđupušenjai vjerojatnosti da će osoba oboljeti odraka.Duhanska industrija branila je svoju tezu da se ne može uspostaviti uzročno-posljedična veza između pušenja i vjerojatnosti dobivanja raka. Oni su tezu obrazlagali time da su pušači vrlo često nervozne osobe, koje zbog toga što su nervozne počinju pušiti. Istovremeno postoji korelacija između toga da je osoba nervozna i vjerojatnosti da će takva osoba dobiti rak. S druge strane, liječnici su tvrdili da postoji izravna uzročno-posljedična veza između pušenja i vjerojatnosti da će osoba dobiti rak, što je kasnije i potvrđeno.

Na osnovu utvrđene korelacije ne možemo sa sigurnošću utvrditi uzročno-posljedičnu vezu između dviju varijable. Unatoč tome korelacija nam daje informaciju o tome da su te dvije varijable na određeni način povezane. Iako ne shvaćamo u potpunosti mehanizam te povezanosti, znamo da povezanost postoji i prilikom opisa varijabli to možemo uzeti u obzir. Npr. poznato nam je da je povećana tjelesna težina u korelaciji sa povećanom smrtnošću i možemo reći da su te dvije varijable u međusobnom odnosu. Korelacija se najčešće koristi za predviđanje vrijednosti jedne varijable ovisno o promjeni vrijednosti druge varijable, u slučaju ako su te dvije varijable u korelaciji. Saznanje o korelaciji između dvije varijable pomaže nam da s većom sigurnošću predvidimo na koji način će se mijenjati vrijednost druge varijable. Npr. poznato nam je da su količina unesene soli u organizam i visina krvnog tlaka osoba određenog spola i dobi u korelacijskom odnosu i taj odnos nam je poznat. Na osnovu tih informacija možemo dozirati unos potrebne količine soli u organizam kako bi krvni tlak ostao unutar granica normale, a organizam bi primio dovoljnu količinu soli za normalno funkcioniranje.

Utvrđivanjem korelacije između vrijednosti dvije varijable može se dobiti prva informacija o njihovoj međusobnoj povezanosti. Nakon toga se utvrđena povezanost može detaljnije istražiti drugimstatističkimmetodama. Npr. korelacijom se utvrdi da postoji veza između korištenje nekog kemijskog sredstva i pojave određene bolesti. Nakon toga se može u eksperimentalnim uvjetima, na laboratorijskim životinjama utvrditi da li stvarno postoji uzročno-posljedična veza između tih varijabli. Korelacija je tu odigrala ulogu da izolira varijable koje međusobno na neki način utječu jedna na drugu, a nakon toga druge metode, koje to mogu, potvrđuju ili odbacuju odgovarajuću uzročno-posljedičnu hipotezu. Korelacija se često koristi za provjeru rezultata testiranja. Nakon provednog testiranja utvrđuje se odgovarajuća korelacija između testiranja i dobivenih rezultata. Nakon što se testiranje ponovi, ponovno se utvrđuje korelacija između novih i prethodno dobivenih rezultata. U slučaju da korelacija ne postoji, obično se zaključuje da je provedeni eksperiment vrlo nestabilan pošto ponovljeni eksperiment ne može ponoviti prethodne rezultate

Eksterni linkovi

[uredi|uredi kod]