Indice di correlazione di Pearson

(Reindirizzamento daCoefficiente di correlazione)

Instatistica,l'indice di correlazione di Pearson(anche dettocoefficiente di correlazione lineare[1],coefficiente di correlazione di Pearsonocoefficiente di correlazione di Bravais-Pearson) tra duevariabili statisticheè unindiceche esprime un'eventuale relazione dilinearitàtra esse.[1]

Esempi di grafici di dispersione con differenti valori di indice di correlazione (ρ)

Secondo ladisuguaglianza di Cauchy-Schwarzha un valore compreso traedovecorrisponde alla perfetta correlazione lineare positiva,corrisponde a un'assenza di correlazione lineare ecorrisponde alla perfetta correlazione lineare negativa. Fu sviluppato daKarl Pearsonda un'idea introdotta daFrancis Galtonnel 1880; la formula matematica fu derivata e pubblicata daAuguste Bravaisnel 1844.[2][3][4]La denominazione del coefficiente è anche un esempio dellalegge di Stigler.

Definizione

modifica

Date duevariabili statistichee,l'indice di correlazione di Pearson è definito come la lorocovarianzadivisa per il prodotto delledeviazioni standarddelle due variabili:

doveè lacovarianzatraeesono le duedeviazioni standard.

Il coefficiente assume sempre valori compresi trae[5]

Correlazione e indipendenza

modifica

Nella pratica si distinguono vari "tipi" di correlazione.

  • Se,le variabiliesi diconodirettamente correlate,oppurecorrelate positivamente;
  • se,le variabiliesi diconoincorrelate;
  • se,le variabiliesi diconoinversamente correlate,oppurecorrelate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

  • sesi hacorrelazione debole;
  • sesi hacorrelazione moderata;
  • sesi hacorrelazione forte.

Se le due variabili sonoindipendentiallora l'indice di correlazione vale 0. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizionenecessariama nonsufficienteper l'indipendenza. Per esempio data la distribuzione

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

abbiamo cheenon sono indipendenti in quanto legate dalla relazione,ma.

L'ipotesi di assenza diautocorrelazioneè più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione valein presenza di correlazione lineare positiva perfetta (cioè,con), mentre valein presenza di correlazione lineare negativa perfetta (cioè,con).

Valori prossimi a(o) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica:

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente.

Generalizzazione a più di due variabili

modifica

Gli indici di correlazione divariabili possono essere presentati in unamatrice di correlazione,che è unamatrice quadratadi dimensioneavente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice èsimmetrica,cioè,e i coefficienti sulla diagonale valgonoin quanto

Proprietà matematiche

modifica

Un valore dell'indice di correlazione uguale aocorrisponde a punti che si trovano esattamente su una linea retta. Il coefficiente di correlazione di Pearson è simmetrico:

Una proprietà matematica caratteristica del coefficiente di correlazione di Pearson è che non varia rispetto ai cambiamenti singoli della posizione e della scala delle due variabili. Cioè, possiamo trasformareine trasformareindoveesono costanti reali consenza modificare il coefficiente di correlazione.

Esempio in R

modifica

Utilizzando illinguaggio di programmazioneRsi vuole calcolare l'indice di correlazione di Pearson tra la variabileFertility rate, total (births per woman)e la variabileGDP per capita (current US$)nel 2020, fornite dalla Banca Mondiale qui:https://databank.worldbank.org/reports.aspx?source=world-development-indicators.Per fare questo si utilizza la funzionecornel seguente modo:

library(dplyr)

World_Bank_Data<-read.csv("World_Bank_Data.csv")

df1<-World_Bank_Data%>%
filter(Series.Name=="Fertility rate, total (births per woman)")%>%
select(Country.Name,X2020..YR2020.)

colnames(df1)[2]<-"Numero di figli per donna"

df2<-World_Bank_Data%>%
filter(Series.Name=="GDP per capita (current US$)")%>%
select(Country.Name,X2020..YR2020.)

colnames(df2)[2]<-"Pil procapite"

df1<-merge(df1,df2,by="Country.Name")

df1$`Numero di figli per donna`<-as.numeric(df1$`Numero di figli per donna`)
df1$`Pil procapite`<-as.numeric(df1$`Pil procapite`)

df1<-df1[-which(is.na(df1$`Pil procapite`)),]
df1<-df1[-which(is.na(df1$`Numero di figli per donna`)),]

cor(df1$`Numero di figli per donna`,df1$`Pil procapite`,)
-0.4601806

Bibliografia

modifica

Voci correlate

modifica

Collegamenti esterni

modifica
Controllo di autoritàGND(DE)4165345-2