Análisis Avanzado de Datos
En esta clase se aborda el tema del diagnóstico de regresión, introduciendo conceptos como leverage, distancia, e influencia para identificar casos irregulares en un análisis de regresión.
Los objetivos son:
¿Por qué es importante? Los diagnósticos nos permiten entender mejor la relación entre nuestras variables, asegurándonos de que no hay observaciones que estén afectando desproporcionadamente nuestros resultados. Además, nos ayuda a cumplir con los supuestos fundamentales de la regresión lineal, lo que asegura la validez de las inferencias.
Es importante entender la interacción entre estos conceptos, ya que un punto con alto leverage podría no ser influyente si su residuo es bajo, pero un caso con alto leverage y gran residuo será altamente influyente.
Los valores de leverage altos indican un patrón de valores de predictores que difiere considerablemente de los demás casos.
Solución: Modelos con errores estándares robustos
{.smaller background-color=“white”}
Los residuos en torno a los valores estimados de Y se distribuyen normalmente para que las infernecias sean válidas.
- Si los residuos se distribuyen normalmente, quiere decir que la mayor parte de los residuos se encuentran en torno a 0 (es decir, son valores que se alejan poco del valor observado).
- A su vez, son cada vez menos los residuos a medida que estos valores son mayores en términos absolutos.
Cuando dos o más variables independientes están altamente correlacionadas:
0,8 o más. Si este es el caso, es recomendable eliminar una de las dos variables del modelo.