Regresión y Causalidad: Retornos a la Educación
Programa Becas para Todos - El Salvador
Introducción
En este ejercicio exploraremos una pregunta fundamental de política pública: ¿Vale la pena invertir en educación?
Específicamente, investigaremos:
- ¿Cuánto aumenta el salario por cada año adicional de educación?
- ¿La relación es lineal o hay retornos decrecientes?
- ¿Existen brechas salariales por género?
- ¿La correlación entre educación y salario es causal, o está confundida por habilidad no observable?
Parte 1: Generando Datos Realistas
Vamos a simular datos de 1,000 trabajadores salvadoreños con las siguientes características:
- Años de educación: 0 a 18 años (primaria incompleta hasta posgrado)
- Sexo: Mujer (0) u Hombre (1)
- Habilidad cognitiva: Variable NO OBSERVABLE (como IQ, motivación, redes)
- Salario mensual: En dólares estadounidenses
Importante: En la vida real, NO observamos la habilidad. Este es el “problema de variables omitidas”.
Pregunta de reflexión: ¿Qué observamos en los datos? ¿Qué NO observamos en la realidad?
Parte 2: Regresión Simple - Brecha Salarial por Género
Pregunta: ¿Los hombres ganan más que las mujeres?
Enfoque 1: Diferencia de Medias (Prueba t)
Enfoque 2: Regresión Lineal
Interpretación:
- Intercepto (\(\beta_0\)): Salario promedio de las mujeres (sexo = 0)
- Coeficiente de sexo (\(\beta_1\)): Diferencia entre hombres y mujeres
Pregunta: Compara el coeficiente de sexo con la diferencia de medias. ¿Son iguales?
Conexión con la clase: Diferencia de medias = Regresión con variable dummy ✅
Parte 3: Retornos a la Educación (Modelo Lineal)
Pregunta: ¿Cuánto aumenta el salario por cada año adicional de educación?
Interpretación:
- Intercepto: Salario esperado con cero años de educación
- Pendiente: Por cada año adicional de educación, el salario aumenta en $___ dólares en promedio
- R²: El modelo explica **___% ** de la variación en salarios
Visualización: Diagrama de Dispersión + Línea de Regresión
Pregunta de reflexión: ¿La relación parece perfectamente lineal? ¿O hay indicios de que los retornos disminuyen en educación alta?
Parte 4: Retornos Decrecientes - Modelo Cuadrático
En economía, los retornos marginales decrecientes son comunes: los primeros años de educación tienen mayor impacto que los últimos.
Modelo: \(\text{Salario} = \beta_0 + \beta_1 \cdot \text{Educación} + \beta_2 \cdot \text{Educación}^2 + \varepsilon\)
Interpretación:
- Si \(\beta_2 < 0\): Los retornos a educación son decrecientes
- Si \(\beta_2 > 0\): Los retornos a educación son crecientes
Visualización: Línea Curva vs Línea Recta
Pregunta: ¿Cuál modelo se ajusta mejor a los datos?
Parte 5: Agregando Sexo al Modelo
¿Qué pasa si controlamos por género?
Interpretación:
- El coeficiente de
sexoes la brecha salarial de género, controlando por educación - Ahora comparamos hombres y mujeres con el mismo nivel de educación
Observación clave: Cada variable adicional aumenta el R² (el modelo explica más variación)
Visualización: Líneas Separadas por Sexo
Parte 6: El Modelo “Verdadero” - Agregando Habilidad
En la realidad, no observamos habilidad. Pero aquí podemos simular lo que pasaría si la pudiéramos medir.
Observación importante:
- Compara el coeficiente de
educacionen modelo4 (sin habilidad) vs modelo5 (con habilidad) - ¿El efecto de educación cambia cuando controlamos por habilidad?
Conclusión: Habilidad explica una parte importante de la variación en salarios que antes atribuíamos a educación.
Parte 7: Sesgo de Variable Omitida - El Problema Causal
Pregunta central: Si omitimos habilidad (como ocurre en la realidad), ¿nuestras estimaciones están sesgadas?
Predicciones con y sin Habilidad
Vamos a predecir el salario de una persona con: - 12 años de educación (bachillerato completo) - Sexo: Hombre - Habilidad: 1 desviación estándar arriba del promedio
Comparación Gráfica del Sesgo
Interpretación:
- La línea ROJA (sin habilidad) está por ENCIMA de la azul
- Esto significa que sobrestimamos el efecto de la educación cuando omitimos habilidad
- ¿Por qué? Porque personas con mayor habilidad:
- Eligen estudiar más (habilidad → educación)
- Ganan más salario (habilidad → salario)
- Creamos una correlación espuria entre educación y salario
Parte 8: Visualización Final - Efecto por Nivel de Habilidad
¿Cómo cambian las predicciones para personas con diferente habilidad?
Observación: Personas con mayor habilidad tienen salarios más altos en todos los niveles de educación.
Síntesis: Lecciones de Política Pública
1. Correlación ≠ Causalidad
Esta correlación incluye: - Efecto causal de educación → salario - Efecto confusor de habilidad → educación Y habilidad → salario
2. El Problema de Variables Omitidas
Si omitimos habilidad: - SOBRESTIMAMOS el efecto de la educación - Las becas educativas parecen más efectivas de lo que realmente son - Mala asignación de recursos públicos
3. ¿Qué Podemos Hacer en la Práctica?
Ya que no podemos medir habilidad, necesitamos diseños de investigación que eliminen el sesgo:
Opción A: Experimento Aleatorio (RCT) - Asignar becas al azar - Comparar becados vs no becados - La aleatorización elimina el sesgo de habilidad
Opción B: Quasi-experimental (RD) - Becas para estudiantes con promedio ≥ 8.0 - Comparar estudiantes con 7.9 vs 8.1 - Son casi idénticos, excepto que unos reciben beca
Opción C: Variables Instrumentales - Encontrar algo que afecta educación pero NO salario directamente - Ejemplo: Distancia a la escuela más cercana
4. Tabla Resumen de Modelos
Observación: R² aumenta con cada variable, pero solo el modelo 5 es insesgado.
Preguntas de Reflexión Final
¿Por qué el coeficiente de educación es más BAJO en el modelo 5 que en el modelo 4?
Pista: Piensa en el sesgo de variable omitida.
Si eres tomador de decisiones y solo tienes datos de educación y salario (sin habilidad), ¿qué harías?
Opciones:
- Confiar en la regresión simple
- Diseñar un experimento aleatorio
- Buscar un diseño quasi-experimental
- No invertir en becas
¿La brecha salarial de género es “justa” después de controlar por educación y habilidad?
Esto requiere un juicio normativo, no solo estadístico.
Si un estudio observacional reporta que cada año de educación aumenta el salario en $50, ¿es este el efecto CAUSAL?
¿Qué variables omitidas podrían estar sesgando esta estimación?
Conexión con el Curso
En este ejercicio integramos:
✅ Regresión lineal: Cuantificar relaciones entre variables
✅ Variables dummy: Diferencia de medias = Regresión
✅ Modelos no lineales: Educación²
✅ R²: Bondad de ajuste
✅ Causalidad: Diferencia entre correlación y causalidad
✅ Sesgo de variable omitida: El problema fundamental
✅ Diseños de evaluación: RCT, RD, IV como soluciones
Para Profundizar
📚 Lecturas recomendadas: - Card, David (1999). “The Causal Effect of Education on Earnings” - Angrist & Pischke (2009). “Mostly Harmless Econometrics”
Fin del ejercicio
Recuerda: Los datos son simulados, pero el problema es real. En política pública, distinguir correlación de causalidad puede significar la diferencia entre programas efectivos y desperdicio de recursos.