Sesión 7–8: Prueba de Hipótesis, Valor p y Poder Estadístico

Caso: Programa Becas para Todos

Contexto del caso. El programa Becas para Todos asigna becas de apoyo educativo a estudiantes de secundaria en municipios con alta marginación. Queremos saber si las becas mejoran el rendimiento en matemáticas — y si podemos confiar en los resultados de nuestra evaluación.


Parte 1: Visualizando los grupos

Antes de hacer cualquier prueba, miremos los datos. Simulamos puntajes de matemáticas (escala 0–100) para el grupo de control y el grupo que recibió la beca.

Histogramas de los grupos

¿Por qué dos paneles? El panel izquierdo muestra la variación dentro de cada grupo: los 60 puntajes individuales de cada alumno. El panel derecho muestra la distribución muestral del promedio: si repitiéramos el estudio muchas veces con muestras de n = 60, ¿dónde caería X̄ cada vez? El error estándar (SE = σ/√n) es mucho más angosto que σ porque el promedio es mucho más estable que una observación individual. El traslape gris en el panel derecho visualiza cuán fácil o difícil es que las dos medias “se confundan” por azar — esa dificultad es exactamente lo que cuantifica el estadístico t.


Parte 2: Las funciones de distribución en R — guía de referencia

Antes de construir la prueba, conviene tener un mapa claro de las cuatro familias de funciones que R ofrece para cualquier distribución de probabilidad.

La familia d / p / q / r

Para cada distribución (normal, t, chi-cuadrado, F, binomial…), R implementa cuatro funciones con prefijos consistentes:

Prefijo Qué calcula Ejemplo (Normal estándar)
d Densidad — la “altura” de la campana en un punto x dnorm(0) → 0.3989
p Probabilidad acumulada — P(X ≤ x) pnorm(1.96) → 0.9750
q Cuantil — el valor x tal que P(X ≤ x) = p qnorm(0.975) → 1.96
r Simulación — genera números aleatorios rnorm(10) → 10 valores

Los sufijos de distribución más usados en inferencia: norm (normal), t (t de Student), chisq (chi-cuadrado), f (F de Fisher), binom (binomial).


Parte 3: Construyendo la prueba t paso a paso

Paso 1 — Planteamos las hipótesis

\[H_0: \mu_{\text{beca}} - \mu_{\text{control}} = 0\] \[H_1: \mu_{\text{beca}} - \mu_{\text{control}} > 0 \quad \text{(prueba unilateral: esperamos mejora)}\]

Paso 2 — Calculamos el estadístico t a mano

El estadístico \(t\) de Welch (que no asume varianzas iguales entre grupos) es:

\[t = \frac{\bar{X}_{\text{beca}} - \bar{X}_{\text{control}}}{\sqrt{\dfrac{s_{\text{beca}}^2}{n_{\text{beca}}} + \dfrac{s_{\text{control}}^2}{n_{\text{control}}}}}\]

El denominador es el error estándar de la diferencia: cuánta variabilidad esperamos en esa diferencia si repitiéramos el muestreo.

Paso 3 — Obtenemos el valor p

Paso 4 — Verificamos con t.test()

Visualizando el valor p en la distribución t


Parte 4: Valor p, poder y tamaño de muestra

Simulando el poder estadístico

El poder (1 − β) es la probabilidad de rechazar \(H_0\) cuando el efecto es real. Depende del tamaño de muestra, del tamaño del efecto y del nivel α.

Correlación intraclúster (ICC) y diseño por conglomerados

En Becas para Todos, las becas no se asignan alumno por alumno: se asignan a escuelas enteras. Cuando la unidad de asignación es un grupo (escuela, comunidad, clínica), hablamos de un diseño clusterizado.

Los alumnos de una misma escuela tienden a parecerse más entre sí que alumnos de distintas escuelas — comparten maestros, infraestructura y contexto socioeconómico. Esa similitud interna se mide con el coeficiente de correlación intraclúster (ICC, ρ):

\[\text{ICC} = \frac{\sigma^2_{\text{entre clústeres}}}{\sigma^2_{\text{entre}} + \sigma^2_{\text{dentro}}}\]

El efecto de diseño (DEFF) cuantifica cuánto se infla el tamaño de muestra requerido:

\[\text{DEFF} = 1 + (m - 1) \cdot \rho\]

donde \(m\) = alumnos por escuela y \(\rho\) = ICC.

Regla práctica: Con ICC ≥ 0.10, los diseños clusterizados requieren ajuste explícito. El DEFF con \(m = 20\) y \(\rho = 0.20\) es \(1 + 19 \times 0.20 = 4.8\) — necesitas casi cinco veces más observaciones que en un diseño simple para el mismo poder.


Parte 5: Relevancia práctica, significancia estadística y efecto mínimo detectable

El problema de confundir significancia con importancia

El efecto mínimo detectable (MDE)

El MDE (Minimum Detectable Effect) es la diferencia más pequeña que nuestro diseño puede detectar con probabilidad ≥ 80%, dado un α fijo. Se deriva de la condición de poder:

\[\text{MDE} = (z_{1-\alpha} + z_{1-\beta}) \times SE \qquad \text{donde } SE = \sigma\sqrt{\tfrac{2}{n}}\]

MDE en diseños clusterizados

\[\text{MDE}_{\text{cluster}} = \text{MDE}_{\text{simple}} \times \sqrt{\text{DEFF}} = \text{MDE}_{\text{simple}} \times \sqrt{1 + (m-1)\rho}\]

Conclusión: Si las escuelas tienen ICC = 0.20 y asignamos 30 alumnos por escuela (4 clústeres por brazo con \(n_{\text{total}} = 120\)), el MDE se infla considerablemente. Conviene reducir el tamaño del clúster y aumentar el número de escuelas para recuperar poder con el mismo presupuesto de observaciones.


Ejercicios

  1. Re-simula los datos de Becas para Todos con n <- 30. ¿Cambia la conclusión? ¿Cambió más el valor p o el estadístico t?

  2. Valor p a mano: calcula pt() y pnorm() para un estadístico \(t = 1.85\) con 58 grados de libertad, tanto unilateral como bilateral. ¿Cuándo divergen más las dos distribuciones?

  3. ICC: Supón que el ICC real en escuelas mexicanas de secundaria es 0.12 y que cada escuela tiene 25 alumnos. ¿Cuántas escuelas por brazo necesitas para tener 80% de poder y detectar un efecto de 4 puntos? Usa mde_analitico() con n = n_total / deff.

  4. MDE y política: Alguien te dice “el programa no tuvo efecto significativo con n = 40 por grupo”. Calcula el MDE para ese diseño. ¿Es ese resultado evidencia de ausencia de efecto o ausencia de evidencia?


Discusión

  • ¿“No significativo” significa “no funciona”?
  • ¿Cuándo un resultado estadísticamente significativo no debería cambiar una política?
  • ¿Por qué un ICC alto obliga a preferir más clústeres pequeños sobre pocos clústeres grandes?
  • ¿Cómo presentarías el MDE en un informe para tomadores de decisión no estadísticos?