Sesión 3: Jugando a los Dados con el Presupuesto

Simulación Monte Carlo para Planificación Presupuestaria

Caso de Política Pública

La Dirección de Programas Sociales debe presentar un presupuesto al Congreso para un programa de transferencias monetarias condicionadas. El problema: múltiples fuentes de incertidumbre:

  • 📦 Costo unitario por beneficiario (varía por logística, inflación)
  • 👥 Número de beneficiarios (demanda fluctuante)
  • 🚛 Costos logísticos (transporte, operación regional)
  • 💸 Tasa de deserción (beneficiarios que abandonan el programa)

Tu tarea: Usar simulación Monte Carlo para: - Estimar el presupuesto necesario con su rango de incertidumbre - Identificar el percentil 90 (para no quedarse corto) - Comunicar el riesgo presupuestario al Director

Regla de oro: Planificar con el promedio es planificar para el fracaso. Necesitamos conocer la distribución completa.


Parte 1: Concepto de Simulación Monte Carlo

¿Qué es Monte Carlo? - Técnica que usa muestreo aleatorio repetido - “Tira los dados” miles de veces - Genera distribución de resultados posibles - Usado en finanzas, seguros, ingeniería, salud pública

¿Por qué lo necesitamos? En política pública, raramente sabemos un valor exacto. Sabemos: - “El costo unitario está entre $10-15 USD, pero más probable cerca de $12” - “Esperamos 5,000 beneficiarios ± 400” - “La logística cuesta entre $30k-50k USD”

Monte Carlo convierte esta incertidumbre en números útiles para decidir.


Parte 2: Componentes del Modelo


INTERPRETACIÓN DE PARÁMETROS: COSTOS LOGÍSTICOS

Usamos distribución Gamma(shape = 8, rate = 1/5000) para el componente base.

¿Cómo se traduce esto a dólares?

Para una distribución Gamma:

  • Media = shape / rate = 8 / (1/5000) = 40,000 USD
  • Desviación estándar = √shape / rate = √8 / (1/5000) ≈ 14,142 USD

COMPONENTE BASE: $40,000 ± $14,000

Representa costos logísticos “típicos” con variación aleatoria local (clima, geografía, eficiencia administrativa)

COMPONENTE CORRELACIONADO: +$10,000 × (beneficiarios estandarizados)

Más beneficiarios → proporcionalmente más rutas, vehículos, personal

Ejemplos:

  • Municipio pequeño (800 beneficiarios, -1 SD): -$10,000 ajuste
  • Municipio promedio (1000 beneficiarios): $0 ajuste
  • Municipio grande (1200 beneficiarios, +1 SD): +$10,000 ajuste

PISO MÍNIMO: $15,000

Costos fijos inevitables (coordinador, vehículo base)

RESULTADO:

  • Costos logísticos entre $25,000 y $70,000 según tamaño del municipio.
  • Es solo álgebra para “calibrar” la distribución a dólares reales.

Preguntas de reflexión (discutir en clase):

  1. ¿Por qué usamos distribuciones diferentes para cada componente?
  2. ¿Qué pasaría si usáramos Normal para todo?
  3. ¿Por qué el costo unitario es Lognormal y no Normal?
    • Pista: ¿Puede ser negativo un costo?
  4. ¿La truncación en 3,000 beneficiarios es realista? ¿Qué implica?
  5. ¿Por qué es importante modelar la correlación entre beneficiarios y logística?

Parte 2.5: La Magia Detrás del Telón

¿Cómo genera R números aleatorios con diferentes distribuciones?

¿Por qué importa esto? - Entender que toda aleatoriedad es transformación matemática - Saber que podemos crear cualquier distribución a partir de U(0,1) - Reconocer que rnorm(), rlnorm() hacen esto automáticamente


Parte 2.6: Parametrización con Datos Reales vs Supuestos

¿Adivinar o medir? El valor de los datos históricos

¿Qué tenemos? Datos históricos de 50 municipios que operaron el programa en 2023. Ahora vamos a ajustar distribuciones a estos datos.


Ajustando distribuciones con el paquete fitdistrplus


Validación visual: ¿Qué tan bien ajustan?


Re-simulación con parámetros ajustados


Lecciones aprendidas

Conclusión clave: En este ejercicio, usar datos reales cambió la estimación del P90 en aproximadamente r sprintf("%+.1f%%", dif_p90).

¿Es mucho o poco? Depende de tu tolerancia al riesgo:

  • Si presupuestas con P50 (mediana): La diferencia probablemente fue <2%, casi despreciable
  • Si presupuestas con P90 (conservador): La diferencia fue significativa y podría cambiar tu recomendación
  • Si presupuestas con P95: La diferencia es aún mayor (los datos importan MUCHO)

Regla práctica:

Percentil más alto usado → Mayor importancia de datos reales
Costo de quedarse corto → Mayor importancia de datos reales

En algunos contextos (hospitales, vacunación masiva), una diferencia del 5-10% en P90 puede ser la diferencia entre: - ✅ Tener presupuesto suficiente todo el año - ❌ Tener que pedir un suplemento al Congreso a mitad de año (costo político alto)

El valor real no está solo en los números, sino en la CONFIANZA que puedes tener en tu estimación cuando la defiendes ante tomadores de decisiones.


Parte 2.7: Test de Convergencia

¿10,000 simulaciones son suficientes?

Lección importante: Más simulaciones = mayor precisión, pero con rendimientos decrecientes.


Parte 3: Cálculo del Presupuesto Total


Parte 4: Visualización de la Distribución

Interpreta el histograma: - ¿La distribución es simétrica o asimétrica? - ¿Hay cola larga a la derecha? (escenarios de alto costo) - ¿Qué tan separados están P25 y P75? - ¿Qué implica la forma de la distribución para tu planificación?


Parte 5: Análisis de Riesgo Presupuestario

Pregunta clave: ¿Cuánto riesgo está dispuesta a asumir tu institución?


Parte 6: Análisis de Sensibilidad (Tornado Plot)

¿Qué variable genera más incertidumbre?


Parte 7: Análisis de Correlación


Parte 8: Simulación de Estrategias de Mitigación

Análisis visual: - ¿Qué estrategia reduce más la dispersión (altura de las cajas)? - ¿Hay trade-offs entre reducir incertidumbre y costo esperado? - ¿Cuál sería tu recomendación al Director?


Parte 9: Tabla de Decisión para el Director


Parte 10: Simulación de Escenarios Extremos


Parte 11: Errores Comunes en Simulación Monte Carlo


Ejercicio Individual (Entregable)

Parte A: Modificar Supuestos

  1. Re-simula el modelo con beneficiarios más variables:
    • Cambia SD de 600 a 1000
    • ¿Cómo cambia el P90?
    • ¿Cuánto más presupuesto necesitarías?
  2. Escenario de inflación:
    • Aumenta el costo unitario promedio de $12 a $15
    • Mantén todo lo demás igual
    • Calcula el nuevo P90 y compara
  3. Análisis con datos reales (NUEVO):
    • Revisa los parámetros ajustados vs asumidos en la Parte 2.6
    • ¿En cuál variable hubo mayor diferencia?
    • Si tuvieras que recolectar datos históricos con presupuesto limitado, ¿en cuál variable te enfocarías primero?

Parte B: Análisis Escrito

  1. Tabla comparativa de las 4 estrategias:
    • Columnas: Estrategia, P50, P90, IQR, Costo de implementación
    • ¿Cuál recomendarías y por qué?
  2. Escribe un párrafo (6 líneas) explicando:
    • ¿Por qué NO usar solo el promedio?
    • ¿Qué percentil usarías para presupuestar?
    • ¿Qué riesgo implica cada opción (P50 vs P90)?
  3. Ventajas de datos reales (4-5 líneas):
    • ¿Qué ventajas viste al parametrizar con datos históricos vs supuestos?
    • ¿En qué situación justificarías el costo de recolectar datos primarios?
    • ¿Qué limitaciones tienen los datos históricos para predecir el futuro?

Parte C: Comunicación

  1. Crea un memo de 1 página para el Director que incluya:
    • Recomendación de monto (con percentil)
    • 1 gráfico (histograma o boxplot)
    • 2-3 supuestos clave
    • 2 limitaciones del modelo
    • NUEVO: Una nota sobre la calidad de los parámetros (datos reales vs supuestos)

Preguntas de Discusión

  1. Planificación Conservadora vs Eficiente:
    • ¿Qué costo tiene planificar con P90 vs P50?
    • ¿En qué contextos políticos usarías cada uno?
    • ¿Cómo cambiaría tu decisión si fuera un programa piloto vs un servicio de salud crítico?
  2. Comunicación de Incertidumbre:
    • ¿Cómo le explicas al Congreso “90% de confianza”?
    • ¿Preferirías dar un rango o un número único?
    • ¿Qué reacción política esperas si pides presupuesto conservador?
  3. Mejora del Modelo:
    • ¿Qué otras fuentes de incertidumbre agregarías?
    • ¿Cómo modelarías economías de escala?
    • ¿Qué distribución usarías para eventos de “cisne negro”?
  4. Ética de la Incertidumbre:
    • ¿Es ético pedir presupuesto conservador sabiendo que podría sobrar?
    • ¿Preferirías quedarte corto o sobre-estimar?
    • ¿Qué responsabilidad tiene el analista de comunicar riesgo honestamente?
  5. Importancia de las Correlaciones:
    • Vimos que ignorar correlaciones subestima el P90 en ~15%
    • ¿En qué otros contextos de política pública son críticas las correlaciones?
    • ¿Cómo identificarías correlaciones importantes en tu propio trabajo?
  6. Datos Reales vs Supuestos Expertos:
    • ¿Cuándo confiarías más en el juicio de expertos que en datos históricos?
    • Si los datos muestran algo contra-intuitivo, ¿cómo resolverías el conflicto?
    • ¿Qué harías si solo tienes datos de 5 municipios en lugar de 50?
    • ¿Cómo balanceas el costo de recolectar datos vs el riesgo de usar supuestos incorrectos?

Recursos Adicionales

Conceptos clave:

  • Simulación Monte Carlo: Muestreo aleatorio repetido para generar distribución de resultados
  • Distribuciones:
    • Normal: Suma de factores independientes
    • Log-normal: Variables siempre positivas con cola derecha
    • Gamma: Tiempo hasta eventos, costos agregados
    • Triangular: Estimaciones de expertos (min/modo/max)
    • Beta: Variables acotadas entre 0 y 1
  • Parametrización empírica: Ajustar distribuciones a datos históricos usando:
    • Método de momentos (igualar media y varianza observadas)
    • Máxima verosimilitud (MLE - maximizar probabilidad de observar los datos)
    • Validación visual (Q-Q plots, histogramas superpuestos)
  • Percentiles de riesgo:
    • P90: Conservador (10% rebasa)
    • P75: Prudente (25% rebasa)
    • P50: Neutral (50% rebasa)
  • Análisis de sensibilidad: Identificar qué input genera más varianza en output
  • Correlaciones: Modelar dependencias entre variables (CRÍTICO - puede cambiar resultados 15%+)

Paquetes de R útiles para ajuste de distribuciones: - fitdistrplus: Ajuste de distribuciones con múltiples métodos - MASS::fitdistr(): Ajuste básico con MLE - EnvStats: Distribuciones especializadas y tests de bondad de ajuste - actuar: Distribuciones para ciencias actuariales y seguros

Usos en política pública:

  • 💰 Planificación presupuestaria
  • 📊 Análisis costo-beneficio bajo incertidumbre
  • 🏥 Proyecciones de demanda en salud
  • 🌾 Evaluación de riesgo en programas agrícolas
  • ⚡ Proyecciones de energía y cambio climático
  • 🎓 Planificación de infraestructura educativa
  • 🚨 Preparación para emergencias y desastres

Para profundizar: - Busca “The Black Swan” de Nassim Taleb (eventos extremos) - Investiga “Value at Risk” (VaR) en finanzas - Lee sobre “Precautionary Principle” en política ambiental - Consulta “Thinking in Bets” de Annie Duke (decisiones bajo incertidumbre)


Última reflexión:

“En un mundo incierto, dar un solo número es mentir con confianza. La distribución completa es la verdad que necesitan quienes toman decisiones.”

El valor de Monte Carlo no está en predecir el futuro exacto, sino en cuantificar nuestra ignorancia de manera honesta y útil para la toma de decisiones.

Lección especial sobre correlaciones: Como vimos, ignorar una correlación importante (beneficiarios ↔︎ logística) puede subestimar el presupuesto necesario en 15-20%. En política pública, estas dependencias ocultas son la diferencia entre planificar bien y fallarle a los ciudadanos.

Lección especial sobre parametrización: La diferencia entre usar supuestos expertos vs datos reales puede parecer pequeña en la media (0.1%), pero crecer significativamente en los percentiles altos (5-10%). Si presupuestas con P90 o P95, los datos no son un lujo, son una necesidad. El costo de recolectar 50 observaciones históricas es típicamente menor que el costo político de pedir presupuesto suplementario.

El verdadero poder de Monte Carlo está en convertir la incertidumbre en una conversación informada sobre riesgo, donde los tomadores de decisiones pueden elegir conscientemente su nivel de tolerancia al riesgo en lugar de simplemente esperar que “todo salga bien”.