En ciencia de datos y estadística, las decisiones que tomamos dependen directamente de cómo analizamos la información. A menudo confiamos en medidas estadísticas como medias, proporciones o correlaciones para sacar conclusiones. Sin embargo, a veces las tendencias cambian drásticamente cuando separamos los datos en grupos o los combinamos.
A este fenómeno se le conoce como Paradoja de Simpson. En pocas palabras, ocurre cuando una tendencia observada en varios grupos individuales desaparece o incluso se invierte al combinar los datos de todos esos grupos.
Ejemplo clásico: recomendaciones de consolas de videojuegos
Imaginemos una encuesta sobre qué consola recomiendan más los usuarios, PS4 o Xbox One, separando las respuestas por género:
| Grupos | PS4 | Xbox One |
|---|---|---|
| Masculino | 50/150 = 33% | 180/360 = 50% |
| Femenino | 200/250 = 80% | 36/40 = 90% |
| Combinado | 250/400 = 62.5% | 216/400 = 54% |
A primera vista, tanto hombres como mujeres prefieren Xbox One dentro de sus respectivos grupos. Pero al combinar los datos, PS4 parece ser la consola más recomendada.
Esto parece contradictorio —y lo es. La paradoja surge porque las proporciones se interpretan sin tener en cuenta el tamaño de cada grupo.
En este caso:
- Xbox One tiene muchas más respuestas de hombres (360) que de mujeres (40).
- PS4 tiene el patrón opuesto: muchas más respuestas femeninas (250) que masculinas (150).
Cuando agregamos los datos, los tamaños de muestra desiguales alteran la tendencia global. Este es el corazón de la Paradoja de Simpson: una conclusión opuesta al combinar los datos frente a cuando se analizan por separado.
Cómo reproducir la paradoja en Python
Podemos ilustrar el efecto con un pequeño ejemplo:
import pandas as pd
# Datos de ejemplo
data = pd.DataFrame({
'consola': ['PS4']*400 + ['Xbox One']*400,
'genero': ['Hombre']*150 + ['Mujer']*250 + ['Hombre']*360 + ['Mujer']*40,
'recomienda': (
[1]*50 + [0]*100 + # PS4 hombres
[1]*200 + [0]*50 + # PS4 mujeres
[1]*180 + [0]*180 + # Xbox hombres
[1]*36 + [0]*4 # Xbox mujeres
)
})
# Tasas por grupo
print(data.groupby(['consola','genero'])['recomienda'].mean().unstack())
# Tasa global combinada
print('\nTasas globales:')
print(data.groupby('consola')['recomienda'].mean())Salida:
genero Hombre Mujer
consola
PS4 0.33 0.80
Xbox One 0.50 0.90
Tasas globales:
consola
PS4 0.625
Xbox One 0.540La paradoja aparece claramente: las preferencias se invierten al combinar los grupos.
Un ejemplo del mundo real: tratamientos de salud mental
La paradoja de Simpson no es solo una curiosidad estadística. En el mundo real se ha observado en áreas críticas como la medicina, educación, o economía.
Considera un estudio sobre la efectividad de dos terapias para la depresión:
| Tipo de depresión | Terapia A | Terapia B |
|---|---|---|
| Ligera | 81/87 = 93% | 234/270 = 87% |
| Severa | 192/263 = 73% | 55/80 = 69% |
| Combinado | 273/350 = 78% | 289/350 = 83% |
Aquí, la Terapia A funciona mejor tanto para casos leves como severos. Sin embargo, al combinar los datos, parece que la Terapia B es más efectiva.
¿Por qué?
Porque el número de pacientes tratados con cada terapia y tipo de depresión no es el mismo. En los casos leves (que tienen tasas altas de éxito), la mayoría recibió la Terapia A, mientras que los casos severos (con tasas más bajas) se concentraron más en la Terapia B.
La gravedad de la depresión es una variable de confusión, es decir, un factor no considerado que afecta el resultado global.
Lecciones de la Paradoja de Simpson
- El contexto importa.
Los datos sin contexto pueden llevar a conclusiones erróneas. Siempre debemos preguntarnos qué factores ocultos pueden estar influyendo en las relaciones observadas. - Analiza por subgrupos antes de agregar.
Las tendencias globales pueden esconder comportamientos opuestos en segmentos individuales. - El tamaño de muestra importa.
No todos los grupos tienen el mismo peso; las proporciones deben interpretarse considerando cuántos datos hay en cada grupo. - Correlación no implica causalidad.
Que dos variables se muevan juntas no significa que una cause a la otra. La paradoja de Simpson es una excelente demostración de esto.
En Resumen
La Paradoja de Simpson nos recuerda que los datos nunca cuentan toda la historia por sí solos.
Antes de tomar decisiones basadas en estadísticas agregadas, debemos explorar los subgrupos y buscar posibles variables de confusión que puedan estar distorsionando la interpretación.
En análisis de datos, la clave no es solo calcular, sino entender. Porque a veces, los promedios engañan más de lo que explican.
