Ir al contenido

Correlación

De Wikipedia, la enciclopedia libre
Varios conjuntos de puntos (x,y), con elcoeficiente de correlación de Pearsondexeypara cada conjunto. La correlación refleja el ruido y la dirección de una relación lineal (fila superior), pero no la pendiente de esa relación (centro), ni muchos aspectos de las relaciones no lineales (parte inferior). N.B.: la figura del centro tiene una pendiente de 0 pero, en ese caso, el coeficiente de correlación no está definido porque la varianza deYes cero.

Enprobabilidadyestadística,lacorrelaciónindica la fuerza y la dirección de unarelación linealy laproporcionalidadentre dosvariables estadísticas.Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad (Véasecum hoc ergo propter hoc). Por ejemplo, los ingresos y gastos de una familia, la producción y ventas de una fábrica, los gastos en publicidad y beneficios de una empresa.

Una relación funcional se expresa mediante unafunción matemática.SiXes la variable independiente eYes lavariable dependiente,una relación funcional tiene la forma:pY=f(X)

Las correlaciones son útiles porque pueden indicar una relación predictiva que puede explotarse en la práctica. Por ejemplo, una compañía eléctrica puede producir menos electricidad en un día templado basándose en la correlación entre la demanda de electricidad y el tiempo. En este ejemplo, existe unarelación causal,porque eltiempo extremohace que la gente utilice más electricidad para calefacción o refrigeración. Sin embargo, en general, la presencia de una correlación no es suficiente para inferir la presencia de una relación causal (es decir,correlación no implica causalidad).

Formalmente, las variables aleatorias sondependientessi no satisfacen una propiedad matemática deindependencia probabilística.En lenguaje informal,correlaciónes sinónimo dedependencia.Sin embargo, cuando se utiliza en un sentido técnico, la correlación se refiere a cualquiera de varios tipos específicos de operaciones matemáticas entrelas variables probadas y sus respectivos valores esperados.Esencialmente, la correlación es la medida de cómo dos o más variables están relacionadas entre sí. Existen varioscoeficientes de correlación,a menudo denotadoso,que miden el grado de correlación. El más común de ellos es elCoeficiente de correlación de Pearson,que sólo es sensible a una relación lineal entre dos variables (que puede estar presente incluso cuando una variable es una función no lineal de la otra). Otros coeficientes de correlación - como elcorrelación de rangos de Spearman- se han desarrollado para ser másrobustosque el de Pearson, es decir, más sensibles a las relaciones no lineales.[1][2][3]Información mutuatambién puede aplicarse para medir la dependencia entre dos variables.

Coeficiente producto-momento de Pearson

[editar]
Ejemplo de gráficos de dispersión de varios conjuntos de datos con diversos coeficientes de correlación.

La medida más conocida de la dependencia entre dos magnitudes es elcoeficiente de correlación producto-momento de Pearson(CCMPP), o "coeficiente de correlación de Pearson", comúnmente llamado simplemente "coeficiente de correlación". Se obtiene tomando el cociente de lacovarianzade las dos variables en cuestión de nuestro conjunto de datos numéricos, normalizado a laraíz cuadradade sus varianzas. Matemáticamente, basta con dividir lacovarianzade las dos variables por el producto de susdesviación típica.Karl Pearsondesarrolló el coeficiente a partir de una idea similar pero ligeramente diferente deFrancis Galton.[4]

Un coeficiente de correlación producto-momento de Pearson intenta establecer una línea de mejor ajuste a través de un conjunto de datos de dos variables mediante el trazado esencialmente de los valores esperados y el coeficiente de correlación de Pearson resultante indica lo lejos que está el conjunto de datos real de los valores esperados. Dependiendo del signo de nuestro coeficiente de correlación de Pearson, podemos acabar con una correlación negativa o positiva si existe algún tipo de relación entre las variables de nuestro conjunto de datos.

El coeficiente de correlación poblacionalentre dosvariables aleatoriasyconvalor esperadoyconvalor esperadosyydesviación típicasyse define como:

dondees el operadorvalor esperado,significacovarianza,yes una notación alternativa ampliamente utilizada para el coeficiente de correlación. La correlación de Pearson sólo se define si ambas desviaciones típicas son finitas y positivas. Una fórmula alternativa puramente en términos demomentoses:

Correlación e independencia

[editar]

Es un corolario de ladesigualdad de Cauchy-Schwarzque elvalor absolutodel coeficiente de correlación de Pearson no es mayor que 1. Por lo tanto, el valor de un coeficiente de correlación oscila entre -1 y +1. El coeficiente de correlación es +1 en el caso de una relación lineal directa (creciente) perfecta (correlación), -1 en el caso de una relación lineal inversa (decreciente) perfecta (anticorrelación),[5]​ y algún valor en elintervalo abiertoen todos los demás casos, indicando el grado dedependencia linealentre las variables. A medida que se acerca a cero hay menos relación (más cerca de la no correlación). Cuanto más se acerque el coeficiente a −1 o 1, más fuerte será la correlación entre las variables.

Si las variables sonindependientes,el coeficiente de correlación de Pearson es 0, pero lo contrario no es cierto porque el coeficiente de correlación sólo detecta dependencias lineales entre dos variables.

Por ejemplo, supongamos que la variable aleatoriase distribuye simétricamente alrededor de cero, y.Entoncesestá completamente determinada por,de modo queyson perfectamente dependientes, pero su correlación es cero; estánno correlacionadas.Sin embargo, en el caso especial de queyseandistribuciones normales multivariadas,la falta de correlación es equivalente a la independencia.

Aunque los datos no correlacionados no implican necesariamente independencia, se puede comprobar si las variables aleatorias son independientes si suinformación mutuaes 0.

Fuerza, sentido y forma de la correlación

[editar]

Si representamos cada par de valores como lascoordenadasde un punto, elconjuntode todos ellos se llama nube de puntos odiagrama de dispersión.La relación entre dos variables cuantitativas queda representada mediante lalínea de mejor ajuste,trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

  • Lafuerzaextrema según el caso, mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación esfuerte;si la nube de puntos tiene una tendencia elíptica o circular, la relación esdébil.
  • Elsentidomide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es directa (pendiente positiva); si al crecer los valores de A disminuyen los de B, la relación es inversa (pendiente negativa).
  • Laformaestablece el tipo de línea que define el mejor ajuste: lalínea recta,lacurva monotónicao lacurva no monotónica

Coeficientes de correlación

[editar]

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es elcoeficiente de correlación de Pearson(introducido en realidad porFrancis Galton), que se obtiene dividiendo lacovarianzade dos variables entre el producto de sus desviaciones estándar. Otros coeficientes son:

Interpretación geométrica

[editar]

Dados los valores muestrales de dos variables aleatoriase,que pueden ser consideradas como vectores en un espacio dendimensiones, pueden construirse los "vectores centrados" como:

e.

El coseno del ángulo alfa entre estos vectores es dado por la fórmula siguiente:

Pueses el coeficiente de correlación muestral de Pearson. El coeficiente de correlación es elcosenodel ángulo entre ambos vectores centrados:

  • Sir= 1, el ángulo°, ambos vectores son colineales (paralelos).
  • Sir= 0, el ángulo°, ambos vectores son ortogonales.
  • Sir=-1, el ángulo°, ambos vectores son colineales de dirección opuesto.

Más generalmente:.

Por supuesto, desde el punto vista geométrico, no hablamos decorrelación lineal:el coeficiente de correlación tiene siempre un sentido, cualquiera sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, sino sobre su distancia angular en lahiperesferadendimensiones.

LaIconografía de las correlacioneses un método de análisis multidimensional que reposa en esta idea. La correlación lineal se da cuando en una nube de puntos se encuentran o se distribuyen alrededor de una recta.

La fórmula de correlación para dos series distintas con cierto desfase "k", está dada por la fórmula:

Distribución del coeficiente de correlación

[editar]

El coeficiente de correlación muestral o analítico de una muestra es de hecho unavariable aleatoria,eso significa que si repetimos un experimento o consideramos diferentes muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para muestras grandes la variación en dicho coeficiente será menor que para muestras pequeñas. R. A. Fisher fue el primero en determinar ladistribución de probabilidadpara el coeficiente de correlación.

Si las dos variables aleatorias que trata de relacionarse proceden de una distribución gaussiana bivariante entonces el coeficiente de correlaciónrsigue una distribución de probabilidad dada por:[6][7]

donde:

es ladistribución gamma
es lafunción gaussiana hipergeométrica.

Nótese que el valor esperado del coeficiente de correlación muestralres:

por tanto,resestimadorsesgado de.Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:

para

Aunque, la solución:

es subóptima. Se puede obtener un estimador sesgado con mínima varianza para grandes valores den,con sesgo de ordenbuscando el máximo de la expresión:

,i.e.

En el caso especial de que,la distribución original puede ser reescrita como:

dondees lafunción beta.

Distribución normal bivariada

[editar]

Si un par dede variables aleatorias sigue unadistribución normal bivariada,la media condicionales unafunción linealde,y la media condicionales una función lineal de.El coeficiente de correlaciónentrey,junto con las medias y varianzasmarginalesdey,determina esta relación lineal:

deondeyson los valores esperados dey,respectivamente, yyson las desviaciones estándar dey,respectivamente.


La correlación empíricaes unaestimacióndel coeficiente de correlación.Una estimación de distribución paraes dado pordondees lafunción hipergeométrica gaussianay.Esta densidad es tanto una densidad bayesianaposteriorcomo una densidad óptima exacta dedistribución de confianza.[8][9]

Referencias

[editar]
  1. Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968)Applied General Statistics,Pitman.ISBN9780273403159(página 625)
  2. Dietrich, Cornelius Frank (1991)Uncertainty, Calibration and Probability: La Estadística de la Medición Científica e Industrial2ª Edición, A. Higler.ISBN9780750300605(Página 331)
  3. Aitken, Alexander Craig (1957)Statistical Mathematics8ª Edición. Oliver & Boyd.ISBN9780050013007(Página 95)
  4. Rodgers, J. L.; Nicewander, W. A. (1988). «Trece formas de ver el coeficiente de correlación».The American Statistician42(1): 59-66.JSTOR2685263.doi:10.1080/00031305.1988.10475524.
  5. Dowdy, S. y Wearden, S. (1983). "Estadística para la investigación", Wiley.ISBN0-471-08602-9pp 230
  6. Kenney, J. F. and Keeping, E. S.,Mathematics of Statistics,Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
  7. Correlation Coefficient - Bivariate Normal Distribution
  8. Taraldsen, Gunnar (2021).«The Confidence Density for Correlation».Sankhya A(en inglés).ISSN0976-8378.S2CID244594067.doi:10.1007/s13171-021-00267-y.
  9. Taraldsen, Gunnar (2020).Confidence in Correlation(en inglés).doi:10.13140/RG.2.2.23673.49769.

Para más información

[editar]

Enlaces externos

[editar]