Índice Completo de Ejercicios

Sobre Este Índice

Este documento proporciona una descripción exhaustiva de cada uno de los 10 ejercicios del curso, incluyendo objetivos, contenido, datasets, y habilidades desarrolladas.


Ejercicio 1: La Tiranía del Promedio

Información General

  • Archivo: ex01_average_integrated.qmd
  • Tamaño: 17 KB | ~550 líneas de código pedagógico
  • Duración: 3 horas (45 min teoría + 60 min práctica + 40 min individual + 35 min discusión)

Caso de Política Pública

Un municipio diseña un programa de subsidios alimentarios para hogares vulnerables. El informe técnico reporta que el ingreso promedio per cápita es de $420 USD/mes. El Secretario propone establecer el umbral de elegibilidad en $250 USD/mes.

Pregunta de Decisión

¿Cuántos hogares califican para el subsidio? ¿El promedio representa bien a la población?

Dataset Simulado

  • Observaciones: 5,000 hogares
  • Variables:
    • ingreso_pc_usd: Ingreso per cápita mensual (USD)
    • zona: Urbana (3,000) vs Rural (2,000)
  • Distribución: Log-normal (asimétrica con cola derecha)

Conceptos Clave

  • Media vs Mediana
  • Percentiles (P10, P25, P50, P75, P90)
  • Rango Intercuartil (IQR)
  • Desviación Estándar (DE)
  • Coeficiente de Variación (CV)
  • Asimetría en distribuciones

Habilidades Desarrolladas

Análisis Descriptivo

  • Calcular estadísticas de tendencia central y dispersión
  • Interpretar percentiles para focalización de política
  • Comparar distribuciones entre grupos
  • Identificar asimetría visual y numéricamente

Visualización

  • Crear histogramas con líneas de referencia
  • Boxplots comparativos entre zonas
  • Interpretación de elementos del boxplot (mediana, IQR, bigotes, outliers)

Comunicación

  • Construir tablas profesionales para memos ejecutivos
  • Redactar recomendaciones basadas en evidencia
  • Declarar limitaciones del análisis
  • Proponer criterios de elegibilidad basados en percentiles

Contenido del Ejercicio

Parte 1-2: Carga de datos y estadísticas básicas
Parte 3: Análisis por percentiles
Parte 4: Comparación urbano-rural
Parte 5-6: Visualizaciones (histograma + boxplot)
Parte 7: Análisis de elegibilidad
Parte 8: Tabla resumen ejecutivo
Parte 9: Recomendación basada en evidencia

Ejercicio Individual Entregable

  1. Crear tabla comparativa (media, mediana, P10, P90, IQR) por zona
  2. Generar histograma solo para zona rural con líneas de referencia
  3. Proponer criterio de elegibilidad justificado
  4. Responder: ¿Qué riesgo implica usar solo el promedio?

Ejercicio 2: Visualización como Evidencia

Información General

  • Archivo: ex02_visualization_integrated.qmd
  • Tamaño: 23 KB | ~670 líneas
  • Énfasis: Crear gráficos honestos y detectar manipulación visual

Caso de Política Pública

El Secretario de Educación debe decidir cómo distribuir recursos adicionales entre 120 escuelas públicas con datos de: - Puntaje en prueba estandarizada (0-100) - Presupuesto anual por estudiante (miles USD) - Tipo de escuela (Urbana vs Rural)

Pregunta de Decisión

¿Más presupuesto se traduce en mejor desempeño? ¿Hay diferencias sistemáticas entre tipos?

Dataset Simulado

  • Observaciones: 120 escuelas (80 urbanas, 40 rurales)
  • Variables:
    • presupuesto_anual_kusd: Presupuesto por estudiante
    • puntaje_prueba: Desempeño en matemáticas
    • tipo: Urbana/Rural
  • Relación: Escuelas urbanas tienen más presupuesto pero menor retorno marginal

Conceptos Clave

  • Boxplot: elementos y lectura
  • Scatterplot con líneas de tendencia
  • Regresión lineal simple (interpretación visual)
  • R² como poder explicativo
  • Identificación de outliers
  • Auditoría de gráficos engañosos

Habilidades Desarrolladas

Selección de Gráficos

  • Elegir tipo de gráfico según pregunta
  • Boxplot para comparar grupos
  • Scatterplot para explorar relaciones

Análisis de Regresión (Básico)

  • Calcular pendiente (retorno del presupuesto)
  • Interpretar R² (variación explicada)
  • Identificar outliers influyentes

Auditoría Visual

  • Detectar escalas manipuladas (eje Y no en cero)
  • Identificar denominadores engañosos
  • Aplicar 5 reglas de honestidad visual

Clasificación de Casos

  • Categorizar escuelas por cuartil de desempeño
  • Identificar escuelas en situación crítica
  • Priorizar intervenciones

Contenido del Ejercicio

Parte 1-2: Estadísticas descriptivas y tabla comparativa
Parte 3: Boxplot (el mejor aliado del analista)
Parte 4: Análisis de dispersión y cuartiles
Parte 5: Scatterplot con líneas de tendencia por tipo
Parte 6: Cálculo de pendientes (retorno del presupuesto)
Parte 7: Histograma de presupuesto por tipo
Parte 8: Tabla de rendición de cuentas
Parte 9: Auditoría de gráficos engañosos
Parte 10: Memo ejecutivo con visualización

Ejercicio Individual Entregable

  1. Boxplot de presupuesto por tipo con título-conclusión
  2. Scatterplot segmentado con outliers marcados
  3. Tabla: tipo de gráfico → pregunta que responde → limitación
  4. Ejercicio de lectura crítica de gráfico real
  5. Recomendación: ¿A qué 20 escuelas intervenir?

Ejercicio 3: Simulación Monte Carlo

Información General

  • Archivo: ex03_montecarlo_integrated.qmd
  • Tamaño: 24 KB | ~700 líneas
  • Técnica: 10,000 simulaciones por escenario

Caso de Política Pública

La Dirección de Programas Sociales debe presentar presupuesto al Congreso para transferencias monetarias condicionadas con múltiples fuentes de incertidumbre: - Costo unitario por beneficiario (varía por inflación, logística) - Número de beneficiarios (demanda fluctuante) - Costos logísticos regionales

Pregunta de Decisión

¿Qué presupuesto solicitar? ¿Usar P50 (eficiente) o P90 (conservador)?

Modelo de Simulación

  • Costo unitario: Log-normal (media=$12, SD=0.25)
  • Beneficiarios: Normal truncada (media=5000, SD=400)
  • Logística: Gamma (shape=5, rate=1/8000)
  • Presupuesto Total: (Costo × Beneficiarios) + Logística

Conceptos Clave

  • Distribuciones de probabilidad (normal, log-normal, gamma)
  • Simulación Monte Carlo
  • Percentiles de riesgo (P50, P75, P90)
  • Análisis de sensibilidad (qué componente genera más varianza)
  • Coeficiente de variación como medida de riesgo

Habilidades Desarrolladas

Simulación

  • Generar variables aleatorias con distribuciones apropiadas
  • Combinar múltiples fuentes de incertidumbre
  • Ejecutar miles de escenarios

Análisis de Riesgo

  • Calcular percentiles de riesgo
  • Interpretar probabilidad de insuficiencia
  • Comparar estrategias de mitigación

Toma de Decisiones

  • Evaluar trade-off entre riesgo y eficiencia
  • Calcular costo esperado de quedarse corto
  • Comunicar incertidumbre a tomadores de decisión

Contenido del Ejercicio

Parte 1-2: Componentes del modelo y configuración
Parte 3: Cálculo de presupuesto total (10,000 escenarios)
Parte 4: Visualización de distribución
Parte 5: Análisis de riesgo presupuestario
Parte 6: Análisis de sensibilidad (qué componente importa más)
Parte 7: Comparación de estrategias de mitigación
Parte 8: Visualización comparativa (boxplot de estrategias)
Parte 9: Tabla de decisión para el Director
Parte 10: Escenarios extremos (peor y mejor caso)

Ejercicio Individual Entregable

  1. Re-simular con beneficiarios más variables (SD=800)
  2. Escenario de inflación (costo unitario de $12 a $14)
  3. Tabla comparativa de estrategias (A, B, C)
  4. Párrafo: ¿Por qué NO usar solo el promedio?
  5. Memo de 1 página con recomendación de monto

Ejercicio 4: Probabilidad Condicional (Bayes)

Información General

  • Archivo: ex04_bayes_integrated.qmd
  • Tamaño: 18 KB | ~550 líneas
  • Simulación: 10,000 compras públicas

Caso de Política Pública

La Contraloría Municipal implementó sistema de IA para detectar irregularidades en compras públicas: - Sensibilidad: 90% (detecta 9 de cada 10 fraudes) - Especificidad: 95% (solo 5% de honestos marcados incorrectamente) - Prevalencia: 5% de compras tienen irregularidades reales

Pregunta de Decisión

Si el sistema marca una compra, ¿cuál es la probabilidad REAL de que sea fraudulenta?

Dataset Simulado

  • Observaciones: 10,000 compras públicas
  • Variables:
    • realidad: Honesto/Fraude (ground truth)
    • resultado_test: Marcado/No Marcado (predicción IA)
  • Métricas: TP, FP, TN, FN, VPP

Conceptos Clave

  • Teorema de Bayes
  • Valor Predictivo Positivo (VPP)
  • Sensibilidad vs Especificidad
  • Matriz de confusión (2×2)
  • Paradoja de Bayes (alta precisión ≠ bajo falso positivo)
  • Prevalencia y su impacto en VPP

Habilidades Desarrolladas

Probabilidad Condicional

  • Aplicar fórmula de Bayes
  • Calcular VPP correctamente
  • Entender por qué test “90% preciso” genera falsos positivos

Análisis Diagnóstico

  • Construir matriz de confusión
  • Interpretar TP, FP, TN, FN
  • Calcular métricas derivadas

Toma de Decisiones

  • Evaluar costo operativo de auditorías
  • Diseñar estrategias para reducir falsos positivos
  • Comparar sistema de una vs dos etapas

Contenido del Ejercicio

Parte 1-2: Configuración y simulación de realidad
Parte 3: Matriz de confusión completa
Parte 4: Cálculo e interpretación del VPP
Parte 5: Fórmula de Bayes (verificación analítica)
Parte 6: Análisis de sensibilidad (prevalencia)
Parte 7: Estrategias de mejora (3 opciones)
Parte 8: Visualización del problema
Parte 9: Tabla de decisión (auditar todas vs muestra)
Parte 10: Comparación visual de estrategias

Ejercicio Individual Entregable

  1. Re-simular con prevalencia=1% (fraude muy raro)
  2. Mejorar sensibilidad a 95% (mantener todo lo demás)
  3. Tabla comparativa de 4 estrategias
  4. Explicar: ¿Por qué test “90% preciso” falla?
  5. Diseñar protocolo de auditoría (1 página)

Ejercicios 5-10 (Versión Compacta)

Los ejercicios 5-10 son versiones más compactas (4-6 KB) pero igualmente completas que siguen la misma estructura pedagógica.


Ejercicio 5: El Arte del Muestreo

Archivo: ex05_sampling_integrated.qmd (4.5 KB)

Caso: Encuestas de aprobación presidencial
Concepto: Ley de grandes números, error estándar
Simulación: 1,000 muestras por tamaño (n=30 a n=3000)
Decisión: ¿Qué tan grande debe ser la muestra para margen de error <3%?


Ejercicio 6: Intervalos de Confianza

Archivo: ex06_ci_integrated.qmd (5.7 KB)

Caso: Evaluación de programa de control de diabetes
Concepto: IC 95%, margen de error, t-test
Dataset: 200 pacientes (100 tratamiento, 100 control)
Decisión: ¿El programa funciona? ¿Con qué nivel de certeza?


Ejercicio 7: Lógica de la Prueba de Hipótesis

Archivo: ex07_ttest_integrated.qmd (4.3 KB)

Caso: Comparación de métodos de enseñanza
Concepto: H₀, H₁, p-valor, Error Tipo I/II
Dataset: 120 estudiantes (60 por método)
Decisión: ¿Implementar método innovador?


Ejercicio 8: P-valor y Poder Estadístico

Archivo: ex08_pval_integrated.qmd (4.4 KB)

Caso: Programa piloto de empleabilidad
Concepto: Poder (1-β), tamaño de muestra
Simulación: 500 escenarios con diferentes n
Decisión: ¿Expandir piloto o abandonar?


Ejercicio 9: Correlación y Regresión Simple

Archivo: ex09_regression_integrated.qmd (3.6 KB)

Caso: Retornos a la educación (salario vs escolaridad)
Concepto: Regresión lineal, R², residuos
Dataset: 150 observaciones
Decisión: ¿Cuánto vale un año adicional de educación?


Ejercicio 10: Paradoja de Simpson

Archivo: ex10_simpsons_integrated.qmd (4.5 KB)

Caso: Presupuesto escolar (urbana/rural)
Concepto: Variable confusora, regresión múltiple
Comparación: Modelo simple vs modelo controlando
Decisión: ¿Basta igualar presupuestos?


Resumen de Características

Por Nivel de Complejidad

Ejercicios Extensos (17-24 KB): - Sesiones 1-4: Fundamentos detallados - Múltiples visualizaciones - Tablas ejecutivas completas - Análisis de sensibilidad profundo

Ejercicios Compactos (4-6 KB): - Sesiones 5-10: Conceptos avanzados - Código esencial pero completo - Visualizaciones clave - Ejercicios individuales estructurados

Elementos Comunes en TODOS

✅ Caso real de política pública
✅ Análisis descriptivo completo
✅ Visualizaciones informativas
✅ Interpretación contextualizada
✅ Ejercicio individual entregable
✅ Preguntas de discusión
✅ Sección de limitaciones


Especificaciones Técnicas Generales

Formato y Ejecución

  • Archivos: Quarto Markdown (.qmd)
  • Ejecución: WebR (navegador) o RStudio local
  • Dependencias: Base R + ggplot2 (sesiones 1-4)

Datos

  • 100% simulados para reproducibilidad
  • set.seed() para consistencia
  • Casos realistas basados en política real

Duración Total

  • 30 horas de clase (10 sesiones × 3 horas)
  • 20-30 horas de trabajo individual
  • Total: ~50-60 horas de carga de trabajo

Este índice se actualiza conforme se agregan nuevas sesiones o se mejoran las existentes.

Versión: 1.0 | Fecha: Enero 2026