Regresión y Causalidad: Retornos a la Educación

Programa Becas para Todos - El Salvador

Introducción

En este ejercicio exploraremos una pregunta fundamental de política pública: ¿Vale la pena invertir en educación?

Específicamente, investigaremos:

¿Cuánto aumenta el salario por cada año adicional de educación?
¿La relación es lineal o hay retornos decrecientes?
¿Existen brechas salariales por género?
¿La correlación entre educación y salario es causal, o está confundida por habilidad no observable?

Parte 1: Generando Datos Realistas

Vamos a simular datos de 1,000 trabajadores salvadoreños con las siguientes características:

Años de educación: 0 a 18 años (primaria incompleta hasta posgrado)
Sexo: Mujer (0) u Hombre (1)
Habilidad cognitiva: Variable NO OBSERVABLE (como IQ, motivación, redes)
Salario mensual: En dólares estadounidenses

Importante: En la vida real, NO observamos la habilidad. Este es el “problema de variables omitidas”.

Pregunta de reflexión: ¿Qué observamos en los datos? ¿Qué NO observamos en la realidad?

Parte 2: Regresión Simple - Brecha Salarial por Género

Pregunta: ¿Los hombres ganan más que las mujeres?

Enfoque 1: Diferencia de Medias (Prueba t)

Enfoque 2: Regresión Lineal

Interpretación:

Intercepto ($\beta_0$): Salario promedio de las mujeres (sexo = 0)
Coeficiente de sexo ($\beta_1$): Diferencia entre hombres y mujeres

Pregunta: Compara el coeficiente de sexo con la diferencia de medias. ¿Son iguales?

Conexión con la clase: Diferencia de medias = Regresión con variable dummy ✅

Parte 3: Retornos a la Educación (Modelo Lineal)

Pregunta: ¿Cuánto aumenta el salario por cada año adicional de educación?

Interpretación:

Intercepto: Salario esperado con cero años de educación
Pendiente: Por cada año adicional de educación, el salario aumenta en $___ dólares en promedio
R²: El modelo explica **___% ** de la variación en salarios

Visualización: Diagrama de Dispersión + Línea de Regresión

Pregunta de reflexión: ¿La relación parece perfectamente lineal? ¿O hay indicios de que los retornos disminuyen en educación alta?

Parte 4: Retornos Decrecientes - Modelo Cuadrático

En economía, los retornos marginales decrecientes son comunes: los primeros años de educación tienen mayor impacto que los últimos.

Modelo: $\text{Salario} = \beta_0 + \beta_1 \cdot \text{Educación} + \beta_2 \cdot \text{Educación}^2 + \varepsilon$

Interpretación:

Si $\beta_2 < 0$: Los retornos a educación son decrecientes
Si $\beta_2 > 0$: Los retornos a educación son crecientes

Visualización: Línea Curva vs Línea Recta

Pregunta: ¿Cuál modelo se ajusta mejor a los datos?

Parte 5: Agregando Sexo al Modelo

¿Qué pasa si controlamos por género?

Interpretación:

El coeficiente de sexo es la brecha salarial de género, controlando por educación
Ahora comparamos hombres y mujeres con el mismo nivel de educación

Observación clave: Cada variable adicional aumenta el R² (el modelo explica más variación)

Visualización: Líneas Separadas por Sexo

Parte 6: El Modelo “Verdadero” - Agregando Habilidad

En la realidad, no observamos habilidad. Pero aquí podemos simular lo que pasaría si la pudiéramos medir.

Observación importante:

Compara el coeficiente de educacion en modelo4 (sin habilidad) vs modelo5 (con habilidad)
¿El efecto de educación cambia cuando controlamos por habilidad?

Conclusión: Habilidad explica una parte importante de la variación en salarios que antes atribuíamos a educación.

Parte 7: Sesgo de Variable Omitida - El Problema Causal

Pregunta central: Si omitimos habilidad (como ocurre en la realidad), ¿nuestras estimaciones están sesgadas?

Predicciones con y sin Habilidad

Vamos a predecir el salario de una persona con: - 12 años de educación (bachillerato completo) - Sexo: Hombre - Habilidad: 1 desviación estándar arriba del promedio

Comparación Gráfica del Sesgo

Interpretación:

La línea ROJA (sin habilidad) está por ENCIMA de la azul
Esto significa que sobrestimamos el efecto de la educación cuando omitimos habilidad
¿Por qué? Porque personas con mayor habilidad:
1. Eligen estudiar más (habilidad → educación)
2. Ganan más salario (habilidad → salario)
3. Creamos una correlación espuria entre educación y salario

Parte 8: Visualización Final - Efecto por Nivel de Habilidad

¿Cómo cambian las predicciones para personas con diferente habilidad?

Observación: Personas con mayor habilidad tienen salarios más altos en todos los niveles de educación.

Síntesis: Lecciones de Política Pública

1. Correlación ≠ Causalidad

Esta correlación incluye: - Efecto causal de educación → salario - Efecto confusor de habilidad → educación Y habilidad → salario

2. El Problema de Variables Omitidas

Si omitimos habilidad: - SOBRESTIMAMOS el efecto de la educación - Las becas educativas parecen más efectivas de lo que realmente son - Mala asignación de recursos públicos

3. ¿Qué Podemos Hacer en la Práctica?

Ya que no podemos medir habilidad, necesitamos diseños de investigación que eliminen el sesgo:

Opción A: Experimento Aleatorio (RCT) - Asignar becas al azar - Comparar becados vs no becados - La aleatorización elimina el sesgo de habilidad

Opción B: Quasi-experimental (RD) - Becas para estudiantes con promedio ≥ 8.0 - Comparar estudiantes con 7.9 vs 8.1 - Son casi idénticos, excepto que unos reciben beca

Opción C: Variables Instrumentales - Encontrar algo que afecta educación pero NO salario directamente - Ejemplo: Distancia a la escuela más cercana

4. Tabla Resumen de Modelos

Observación: R² aumenta con cada variable, pero solo el modelo 5 es insesgado.

Preguntas de Reflexión Final

¿Por qué el coeficiente de educación es más BAJO en el modelo 5 que en el modelo 4?

Pista: Piensa en el sesgo de variable omitida.
Si eres tomador de decisiones y solo tienes datos de educación y salario (sin habilidad), ¿qué harías?

Opciones:
- 1. Confiar en la regresión simple
- 1. Diseñar un experimento aleatorio
- 1. Buscar un diseño quasi-experimental
- 1. No invertir en becas
¿La brecha salarial de género es “justa” después de controlar por educación y habilidad?

Esto requiere un juicio normativo, no solo estadístico.
Si un estudio observacional reporta que cada año de educación aumenta el salario en $50, ¿es este el efecto CAUSAL?

¿Qué variables omitidas podrían estar sesgando esta estimación?

Conexión con el Curso

En este ejercicio integramos:

✅ Regresión lineal: Cuantificar relaciones entre variables

✅ Variables dummy: Diferencia de medias = Regresión

✅ Modelos no lineales: Educación²

✅ R²: Bondad de ajuste

✅ Causalidad: Diferencia entre correlación y causalidad

✅ Sesgo de variable omitida: El problema fundamental

✅ Diseños de evaluación: RCT, RD, IV como soluciones

Para Profundizar

📚 Lecturas recomendadas: - Card, David (1999). “The Causal Effect of Education on Earnings” - Angrist & Pischke (2009). “Mostly Harmless Econometrics”

Fin del ejercicio

Recuerda: Los datos son simulados, pero el problema es real. En política pública, distinguir correlación de causalidad puede significar la diferencia entre programas efectivos y desperdicio de recursos.