Clase 2: Repaso de estadística bivariada
Análisis Avanzado de Datos
Recordatorio de la clase anterior
¿Por qué usamos modelos estadísticos en Ciencias Sociales?
- Capturar y reducir la complejidad: Los modelos permiten vincular datos con teorías, ayudando a interpretar la realidad social.
- Formalizar y probar teorías: Dando precisión y permitiendo identificar relaciones causales y predecir fenómenos.
- Énfasis en la explicación sociológica: Las técnicas son una herramienta para la investigación social. No basta con explicar la varianza de una variable dependiente, sino la capacidad e explicar las relaciones teóricamente.
Evaluaciones
Tarea 1: 2 de septiembre
- Gestión de datos
- Estadística bivariada
Prueba 1: 9 de Septiembre
- Uso de modelos en ciencias sociales
- Estadística bivariada
- Regresión lineal simple
Objetivo de la sesión
Revisar el estudio de relaciones entre variables con estadística bivariada.
Relaciones entre variables
En sociología frecuentemente queremos contestar preguntas acerca de la relación entre variables, tales como la relación entre la escolaridad de los padres y la de los hijos, el ingreso y la probabilidad de participar en una protesta o entre el sexo y las horas dedicadas al trabajo doméstico.
Para esto necesitamos tener mediciones de ambas variables en la misma unidad (personas, comunas, hogares, etc) para poder observar su variación conjunta.
Ejemplo: Brecha Salarial de género
A lo largo de la clase trabajaremos con el ejemplo de la brecha salarial de género de cada comuna, la cual se calcula con la siguiente fórmula:
\[
\frac{\text{Salario Promedio Hombres} - \text{Salario Promedio Mujeres}}{\text{Salario Promedio Hombres}} \times 100
\] Por ejemplo si en una comuna el salario promedio de los hombres es de $400.000 y el de las mujeres es 300.000
\[
\text{Brecha Salarial de Género} = \frac{100.000}{400.000} \times 100 = 0.25 \times 100 = 25\%
\]
Estadísticos descriptivos
Medidas de tendencia central: Valores situados al centro de las distribuciones que representan espacios donde los datos tienden a agruparse (Media, Mediana, Moda).
Medidas de Dispersión: Describen la variabilidad de los datos de una distribución (Rango, Varianza, Desviación estándar).
Brecha salarial de género comunal
Represetnación de la varianza
Cálculo de la varianza
comuna Observaciones Desviaciones Desviaciones.al.cuadrado
1 iquique 20.36 20.36 - 11.42 = 8.94 (8.94)^2 = 79.88
2 alto hospicio 26.27 26.27 - 11.42 = 14.84 (14.84)^2 = 220.27
3 pozo almonte 30.94 30.94 - 11.42 = 19.51 (19.51)^2 = 380.66
4 huara 21.9 21.9 - 11.42 = 10.48 (10.48)^2 = 109.79
5 pica 20.72 20.72 - 11.42 = 9.29 (9.29)^2 = 86.38
6 antofagasta 26.37 26.37 - 11.42 = 14.95 (14.95)^2 = 223.39
7 mejillones 32.57 32.57 - 11.42 = 21.15 (21.15)^2 = 447.16
8 sierra gorda 31.13 31.13 - 11.42 = 19.71 (19.71)^2 = 388.32
9 taltal 24.29 24.29 - 11.42 = 12.86 (12.86)^2 = 165.5
10 calama 32.29 32.29 - 11.42 = 20.86 (20.86)^2 = 435.33
\[
Varianza = \frac{28961.14}{(323 - 1)} = 89.94
\]
Desciación estándar
Desviación estándar: Es la raíz cuadrada de la varianza. Es comúnmente utilizada en otros cálculos y es más fácil de interpretar ya que esta aproximadamente en la undiad de medida original. Es la que mejor da cuenta de la dispersión (es decir de las distancias de los casos al promedio).
\[
\text{Desviación estándar} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1}}
\] \[
\text{Desviación estándar} = \sqrt{\frac{28961.14}{(323 - 1)}} = 9.48
\]
¿Que variables influyen en la amplitud de la brecha salarial de género comunal?
Pudimos observar que la brecha salarial de género tiene bastante variación entre distintas comunas del país.
Ahora vamos a revisar la relación entre la magnitud de la brecha y el nivel de ruralidad y de educación.
¿Cómo creen que se relacionan estas variables con la magnitud de la brecha salarial de género? ¿Porque?
Rol de las variables
Variable dependiente o respuesta: Es la variable de interés en el estudio, aquella cuya variación se desea comprender. Comúnmente, se representa en el eje de las ordenadas (eje Y).
Variable independiente o explicativa: Es la variable que influye o explica los cambios en la variable respuesta. Habitualmente, se representa en el eje de las abscisas (eje X).
Ojo: si bien lo términos pueden sugerir causalidad esto no necesariamente es así (en la mayoría de los casos no lo es).
Gráfico de dispersión
Gráfico de dispersión
Un gráfico de dispersión muestra la relación entre dos variables cuantitativas medidas en los mismos individuos. Los valores de una variable aparecen en el eje de las abscisas y los de la otra en el eje de las ordenadas. Cada individuo aparece como un punto del diagrama. Su posición depende de los valores que toman las dos variables en cada individuo.
En cualquier gráfico de datos, identifica el aspecto general y las desviaciones del mismo.
Puedes describir el aspecto general de un diagrama de dispersión mediante la forma, la dirección y la fuerza de la relación.
Un tipo importante de desviación son las observaciones atípicas, valores individuales que quedan fuera del aspecto general de la relación.
Asociación positiva y negativa
Dos variables están asociadas positivamente cuando valores superiores a la media de una de ellas tienden a ir acompañados de valores también situados por encima de la media de la otra variable, y cuando valores inferiores a la media también tienden a ocurrir conjuntamente.
Dos variables están asociadas negativamente cuando valores superiores a la media de una de ellas tienden a ir acompañados de valores inferiores a la media de la otra variable, y viceversa.
Gráfico de dispersión
Correlación
La correlación mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas. La correlación se simboliza con la letra r.
Si tenemos datos de dos variables x e y para n individuos. Los valores para el primer individuo son x₁ e y₁, para el segundo son x₂ e y₂, etc. Las medias y las desviaciones típicas de las dos variables son x̄ y sₓ para los valores de x, e ȳ y sᵧ para los valores de y. La correlación r entre x e y es:
\[
r = \frac{1}{n-1} \sum \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right)
\]
Gráfico de correlación
Ejemplo de cálculo
brecha esc brecha_est esc_esta
1 20.36 12.19 (20.36 - 11.42) / 9.48 = 0.94 (12.19 - 9.77) / 1.48 = 1.64
2 26.27 10.38 (26.27 - 11.42) / 9.48 = 1.56 (10.38 - 9.77) / 1.48 = 0.41
3 30.94 10.63 (30.94 - 11.42) / 9.48 = 2.06 (10.63 - 9.77) / 1.48 = 0.58
4 21.90 8.75 (21.9 - 11.42) / 9.48 = 1.1 (8.75 - 9.77) / 1.48 = -0.7
5 20.72 12.26 (20.72 - 11.42) / 9.48 = 0.98 (12.26 - 9.77) / 1.48 = 1.68
6 26.37 11.97 (26.37 - 11.42) / 9.48 = 1.58 (11.97 - 9.77) / 1.48 = 1.49
Prod_est
1 (0.94) * (1.64) = 1.54
2 (1.56) * (0.41) = 0.64
3 (2.06) * (0.58) = 1.2
4 (1.1) * (-0.7) = -0.77
5 (0.98) * (1.68) = 1.65
6 (1.58) * (1.49) = 2.35
\[
Correlación = \frac{142.84}{(323 - 1)} = 0.44
\]
Características de la correlación (I)
Simetría en las Variables: La correlación no distingue entre variables explicativas y respuesta; es indiferente cuál se llame x o y.
Requisito Cuantitativo: Las dos variables deben ser cuantitativas para que los cálculos de la correlación tengan sentido. No se puede calcular la correlación entre una variable cuantitativa y una categórica.
Independencia de Unidades: Como la correlación utiliza valores estandarizados, no cambia si se modifican las unidades de medida de las variables. La correlación es un valor sin unidades.
Significado del Signo:
- Correlación positiva: Indica una asociación positiva entre las variables.
- Correlación negativa: Indica una asociación negativa.
Características de la correlación (II)
Rango de la Correlación: La correlación siempre toma valores entre −1 y 1.
- Cercanía a 0: Indica una relación lineal débil.
- Cercanía a ±1: Indica una relación lineal fuerte. Un valor de ±1 indica una relación lineal perfecta.
Limitación a Relaciones Lineales: La correlación sólo mide la fuerza de relaciones lineales, no describe adecuadamente las relaciones curvilíneas, aunque estas sean fuertes.
Sensibilidad a Observaciones Atípicas: La correlación puede verse fuertemente afectada por valores atípicos, lo que puede distorsionar la percepción de la relación entre las variables. Es importante utilizar la correlación con precaución cuando se detectan atípicos.
Graficos de dispersión y correlación
