p odds
1 0.0 0.0000000
2 0.1 0.1111111
3 0.2 0.2500000
4 0.3 0.4285714
5 0.4 0.6666667
6 0.5 1.0000000
7 0.6 1.5000000
8 0.7 2.3333333
9 0.8 4.0000000
10 0.9 9.0000000
11 1.0 Inf
Análisis Avanzado de Datos
Las semanas anteriores revisamos los modelos de regresión lineal múltiple, que nos permiten analizar la relación de una variable dependiente continua y variables independientes de cualquier nivel de medida. Ahora cabe la pregunta:
¿Cómo podemos modelar variables dicotómicas?
Una opción son los modelos de probabilidad lineal, los cuales consisten en usar una regresión estimada mediante mínimos cuadrados ordinarios para una variable dicotómica (valores 0 y 1). En estos los valores beta pueden interpretarse como cambios promedio en la probabilidad.
| Pobreza según sexo JH | |
|---|---|
| Intercepto | 0.08*** |
| (0.00) | |
| Mujer (ref.hombre) | 0.04*** |
| (0.00) | |
| R2 | 0.00 |
| Adj. R2 | 0.00 |
| Num. obs. | 62911 |
| ***p < 0.001; **p < 0.01; *p < 0.05 |
A pesar de la simpleza de su interpretación, los modelos de probabilidad lineal cuentan con dos problemas:
Pueden entregar variables predichos más allá del rango 0-1 lo cual no tiene sentido en el caso de una probabilidad
No entregan un buen ajuste en términos de cumplimiento de los supuestos del modelo y ajuste a los datos
Una solución a los problemas anteriormente revisado es utilizar otro tipo de modelo: un modelo de regresión logística binaria. En lugar de modelar la probabilidad directamente, hacemos una transformación la variable dependiente: modelamos el logaritmo de los odds (chances).
\[ \log\left(\frac{P}{1 - P}\right) = \beta_0 + \beta_1 X \]
\[ \log\left(\frac{P}{1 - P}\right) = \beta_0 + \beta_1 X \]
\(\log\left(\frac{P}{1 - P}\right)\): Esto representa el logit o log odds. El término \(P\) es la probabilidad de que ocurra el evento de interés, y \(1 - P\) es la probabilidad de que no ocurra. Al tomar el logaritmo de las “odds” o probabilidades, transformamos el rango de \(P\) (que va de 0 a 1) a un rango de \(-\infty\) a \(\infty\).
\(\beta_0\): Es el intercepto. Este valor indica el valor de los log odds cuando la variable independiente \(X\) es igual a 0.
\(\beta_1 X\): Es el coeficiente que acompaña a la variable independiente \(X\). Representa el cambio en los log odds por cada unidad adicional de \(X\). Si \(X\) aumenta en una unidad, los log odds se incrementarán o disminuirán dependiendo del valor de \(\beta_1\).
Este es un modelo de regresión logística, donde la relación entre \(X\) y la probabilidad \(P\) de un evento se modela de manera no lineal, usando la función logit para transformar la probabilidad.
p): Representa la probabilidad de ocurrencia de un evento y toma valores entre 0 y 1.pEste gráfico ilustra cómo varían los odds a medida que cambia la probabilidad (p). Podemos observar que, cuando p se acerca a 1, los odds tienden a crecer exponencialmente.
Los odds (chances) corresponden a la razón entre la probabilidad de que algo ocurra dividido por la probabilidad de que algo no ocurra.
\[Odds = {p\over1-p}\] Ejemplo en CASEN 2020, odds de ser pobre
Odds pobreza = 0.095/0.905 = 0.105
Es decir, de acuerdo a la CASEN 2020, las chances de ser pobre son de 0.105
Odds de 1 significa que existen chances iguales de la correncia o no ocurrencia de cierto hecho.
Odds menores de 1 dan cuenta de chances negativas (es más probable que no ocurra a que ocurra)
Odds mayores a 1 dan cuenta de chances positivas (es más probable que ocurra a que no ocurra)
p odds logit
1 0.0 0.0000000 -Inf
2 0.1 0.1111111 -2.1972246
3 0.2 0.2500000 -1.3862944
4 0.3 0.4285714 -0.8472979
5 0.4 0.6666667 -0.4054651
6 0.5 1.0000000 0.0000000
7 0.6 1.5000000 0.4054651
8 0.7 2.3333333 0.8472979
9 0.8 4.0000000 1.3862944
10 0.9 9.0000000 2.1972246
11 1.0 Inf Inf
pEste gráfico muestra cómo varía el logit con respecto a p. A diferencia de los odds, el logit transforma la probabilidad en una escala lineal, lo cual es esencial para poder aplicar un modelo lineal en la regresión logística.
En nuestro ejemplo original queremos ver como cambia la probabilidad de que un hogar este en la pobreza según sexo del jefe de hogar.
\[Odds_{JH- Hombre} = 0.076/0.924=0.08225 \]
\[Odds_{JH- Mujer} = 0.114/0.886=0.1286 \] Es decir, existen 8,22 hogares con jefatura masculina en situación de pobreza por cada 100 que no lo están, mientras que 12,86 hogares con jefatura femenina en situación de pobreza por cada 100 que no lo están.
Los odds ratio resultan útiles para comparar la asociación entre las chances de dos variables dicotómicas.
OR de pobreza de un hogar con jefatura masculina / OR de pobreza de un hogar con jefatura masculina
\[Odds\: ratio = {{p_{m}(1-p_{m})}\over p_{h}(1-p_{h})}\] \[= {0.114/0.886 \over 0.076/0.924} = {0.1286\over 0.08225}= 1.564 \]
Las chances de un hogar con jefatura femenina de encontrarse esn situación de pobreza son 1,564 veces mayores a las chanches de un hogar con jefatura masculina.
Los odds ratio nos permiten resumir en un número la relación entre dos variables categóricas
Ahora con estos conceptos en mente pasemos a ver como se ajusta un modelo de regresión logística.
Para estimar un modelo de regresión logística binaria en R debemos usar la función glm, incluida en r base
Especificamos la formula igual que en una regresión lineal (la variable dependiente debe estar en formato 0-1). Debemos especificar la familia de modelos (ya que la función glm sirve para calcular distintos tipos de modelos lineales generalizados).
Los beta de un modelo de regresión logística están puestos en términos del logaritmo de los odds.
Es decir, el beta de mujer nos indica que los log-odds de encontrarse en situación de pobreza aumentan en 0.41 en las mujeres en relación a los hombres.
| Model 1 | |
|---|---|
| Intercepto | -2.40*** |
| (0.02) | |
| Mujer (ref.hombre) | 0.41*** |
| (0.03) | |
| AIC | 41074.58 |
| BIC | 41092.68 |
| Log Likelihood | -20535.29 |
| Deviance | 41070.58 |
| Num. obs. | 62911 |
| ***p < 0.001; **p < 0.01; *p < 0.05 | |
Para poder realizar una interpretación con sentido de los coeficientes del modelo debemos realizar una transformación, de forma que el beta quede expresado como odds. Para esto debemos hacer una exponenciación de los coeficientes.
Es decir, los odds (chances) de ser pobre para un hogar con jefatura femenina son 1,506818 veces más que las de uno con jefatura masculina.
| Pobreza según sexo JH (odd ratio) | |
|---|---|
| Intercepto | 0.09 (0.02)*** |
| Mujer (ref.hombre) | 1.51 (0.03)*** |
| AIC | 41074.58 |
| BIC | 41092.68 |
| Log Likelihood | -20535.29 |
| Deviance | 41070.58 |
| Num. obs. | 62911 |
| ***p < 0.001; **p < 0.01; *p < 0.05 | |
| Pobreza según sexo JH | |
|---|---|
| Intercepto | -1.07 (0.05)*** |
| Mujer (ref.hombre) | 0.39 (0.03)*** |
| Edad | -0.03 (0.00)*** |
| AIC | 40182.30 |
| BIC | 40209.45 |
| Log Likelihood | -20088.15 |
| Deviance | 40176.30 |
| Num. obs. | 62911 |
| ***p < 0.001; **p < 0.01; *p < 0.05 | |
En el caso de un modelo de regresión logística con múltiples predictores o variables independientes la interpretación es similar, pero integrando el concepto de control estadístico.
En este caso podemos decir que los log-odds predichos de encontrarse en situación de pobreza aumentan en 0,39 en los hogares con jefatura femenina respecto aquellos con jefatura masculina controlando por edad
En el mismo sentido, los log-odds predichos de ser encontrarse en situación de pobreza disminuyen en 0.03 por cada año más de edad del jefe de hogar, controlando por sexo.
| Pobreza según sexo JH (odd ratios) | |
|---|---|
| Intercepto | 0.34 (0.05)*** |
| Mujer (ref.hombre) | 1.47 (0.03)*** |
| Edad | 0.97 (0.00)*** |
| AIC | 40182.30 |
| BIC | 40209.45 |
| Log Likelihood | -20088.15 |
| Deviance | 40176.30 |
| Num. obs. | 62911 |
| ***p < 0.001; **p < 0.01; *p < 0.05 | |
En el siguiente modelo de regresión logística, se analiza la probabilidad de encontrarse en situación de pobreza según sexo del jefe de hogar (JH) y su edad.
Al interpretar un coeficiente de regresión logística en términos de odds ratios para la comparación entre grupos, se deben considerar los siguientes criterios:
Valor mayor a 1: Si el odds ratio es mayor a 1, significa que el grupo comparado tiene una mayor chances del evento estudiado en comparación con el grupo de referencia. Por ejemplo, un odds ratio de 1.47 indica que la chances del evento es un 47% mayor en el grupo comparado, manteniendo constantes las demás variables. Esto implica que el grupo comparado tiene un mayor riesgo o chances del evento en relación con el grupo de referencia.
Valor menor a 1: Si el odds ratio es menor a 1, indica que el grupo comparado tiene una menor chances del evento estudiado en comparación con el grupo de referencia. Esto implica un efecto protector o una reducción de la chances del evento para el grupo comparado.
Valores cercanos a 1: Valores cercanos a 1, como el 1.01 o 0.99, implican que la variable tiene poco o ningún efecto sobre los odds del evento, es decir, el impacto de dicha variable es mínimo.
Significancia Estadística: Para determinar si el coeficiente tiene un efecto significativo sobre la variable dependiente, se consideran los valores p (p < 0.001; p < 0.01; p < 0.05). En este caso, todos los coeficientes son significativos al nivel del 0.001.
Al interpretar un coeficiente de regresión logística en términos de odds ratios para una variable continua, se deben considerar los siguientes criterios:
Valor mayor a 1: Si el odds ratio es mayor a 1, significa que por cada unidad adicional de la variable continua, la chances del evento estudiado aumenta. Esto implica que la variable tiene un efecto positivo en la chances del evento. Un valor mayor que 1 sugiere un incremento proporcional en los odds del evento.
Valor menor a 1: Si el odds ratio es menor a 1, indica que por cada unidad adicional de la variable continua, la chances del evento disminuye. Por ejemplo, un odds ratio de 0.97 implica que, por cada año adicional de edad del jefe de hogar, los odds de estar en situación de pobreza disminuyen en un 3%. Un valor menor que 1 indica un efecto protector o una reducción en los odds del evento conforme aumenta la variable.
Valores cercanos a 1: Valores cercanos a 1, como el 1.01 o 0.99, implican que la variable tiene poco o ningún efecto sobre los odds del evento, es decir, el impacto de dicha variable es mínimo.
Significancia Estadística: Para determinar si el coeficiente tiene un efecto significativo sobre la variable dependiente, se consideran los valores p (p < 0.001; p < 0.01; p < 0.05). En este caso, todos los coeficientes son significativos al nivel del 0.001.
En un modelo de regresión logística, los coeficientes pueden representar comparaciones entre grupos o el efecto de variables continuas:
En los modelos de regresión logística no contamos con una sola medida de ajuste, por lo que el análisis de ajuste se suele realizar de forma comparativa entre diferentes modelos. Las principales aproximaciones incluyen:
La devianza es una medida de ajuste que se utiliza para evaluar la calidad de un modelo de regresión logística binaria. Representa la diferencia entre la log-verosimilitud del modelo ajustado y la log-verosimilitud del modelo nulo, multiplicada por -2. Por esta razón, también se conoce como devianza residual. Cuanto menor sea el valor de la devianza, mejor se ajusta el modelo a los datos.
El Test de razón de verosimilitud (LR) es un test estadístico utilizado para comparar dos modelos: uno más simple (modelo nulo) y otro más complejo (modelo ajustado). Se basa en la comparación de las devianzas de ambos modelos para determinar si el modelo ajustado mejora significativamente la predicción en comparación con el modelo nulo. Si el test muestra una mejora significativa, podemos concluir que el modelo más complejo proporciona un mejor ajuste a los datos.
Los Criterios de Información son medidas utilizadas para comparar diferentes modelos y seleccionar el más adecuado. Los dos criterios más comunes son el Akaike Information Criterion (AIC) y el Bayesian Information Criterion (BIC). Ambos criterios consideran tanto la bondad de ajuste del modelo como su complejidad, penalizando los modelos excesivamente complejos para evitar el sobreajuste. Un valor más bajo de AIC o BIC indica un mejor equilibrio entre ajuste y simplicidad del modelo.
Los Pseudo R² son medidas de la variabilidad explicada por un modelo de regresión logística. No deben interpretarse como una proporción de la varianza explicada, como en los modelos con variables dependientes continuas, pero ofrecen una idea del desempeño del modelo. Entre los tipos de Pseudo R², uno de los más comunes es el Pseudo R² de McFadden, que se define como:
\[ 1 - \left( \frac{LL(LM)}{LL(L0)} \right) \]
donde:
Un valor cercano a 1 indica que el modelo explica una gran cantidad de la variabilidad en los datos, mientras que un valor cercano a 0 sugiere que el modelo tiene un poder explicativo limitado.
| Model 1 | Model 2 | |
|---|---|---|
| Intercepto | -2.40*** | -1.07*** |
| (0.02) | (0.05) | |
| Mujer (ref.hombre) | 0.41*** | 0.39*** |
| (0.03) | (0.03) | |
| Edad | -0.03*** | |
| (0.00) | ||
| AIC | 41074.58 | 40182.30 |
| BIC | 41092.68 | 40209.45 |
| Log Likelihood | -20535.29 | -20088.15 |
| Deviance | 41070.58 | 40176.30 |
| Num. obs. | 62911 | 62911 |
| ***p < 0.001; **p < 0.01; *p < 0.05 | ||
McFadden
0.005884247
McFadden
0.02753019
