Recta de regresión
Si al calcular el coeficiente de correlación lineal obtenemos un número que en valor absoluto es cercano a 1, podemos decir que hay alguna línea que se "aproxima" a la nube de puntos.
Al considerar la relación lineal entre X e Y hay dos posibilidades, el estudio del comportamiento de Y en función de los valores tomados por X y viceversa. En el primer caso Y será la variable dependiente y X la independiente, esta línea se llama línea de regresión de Y sobre X. El caso opuesto se llama línea de regresión de X sobre Y.
Determinaremos la línea de regresión de Y sobre X y por analogía se deducirá la línea de X sobre Y.
Si X e Y son dos variables de las cuales tenemos n observaciones conjuntas, habrá n pares de la forma
. La recta de regresión de Y sobre X será la que aproxime los valores que toman las variables y tendrá la forma . Para cada xi , será una aproximación de y i. El error que se comete es , si hacemos lo mismo con todos los valores habrá una serie de errores donde unos serán por exceso y otros por defecto con lo que se pueden compensar unos con otros. Para evitar la llegada a conclusiones erróneas debido a esa compensación calcularemos los errores al cuadrado. . La recta de regresión de Y sobre X será aquella que minimice la suma de los errores al cuadrado. Este método de determinación de la recta de regresión se llama de mínimos cuadrados.
Hay que minimizar
Tras los cálculos pertinentes se deduce que :
La recta de regresión de Y sobre X queda:
o
Análogamente, obtenemos la recta de regresión de X sobre Y.
Intercambiado los papeles de X e Y
o
Características de las rectas de regresión
- Para |r| cercano a 1 es una buena aproximación de los datos.
- Las dos rectas de regresión se cortan en el punto
- Las rectas nos sirven para realizar predicciones. La recta de Y sobre X permite interpolar o extrapolar valores de Y dado un valor de X y la de X sobre Y permite realizar la operación inversa.
Estas predicciones tendrán sentido y serán más significativas cuanto mayor sea la correlación entre las variables.
Contenido