Estimación y Estadística Inferencial

Contenido

Introducción a Conceptos Estadísticos Fundamentales

Comenzamos un nuevo bloque enfocado en los principios estadísticos básicos. Estos conceptos son imprescindibles tanto para avanzar con paso firme en el aprendizaje automático (Machine Learning) como para fundamentar la toma de decisiones basada en datos dentro de cualquier organización.

Objetivos de Aprendizaje de este Bloque

Estimación frente a Inferencia: Comprender la diferencia entre calcular un valor métrico puntual y deducir el comportamiento global de una población.
Modelado Paramétrico y No Paramétrico: Distinguir los enfoques algorítmicos que asumen una estructura matemática fija de aquellos que se adaptan libremente a la forma de los datos.
Distribuciones Estadísticas Comunes: Identificar los patrones y estructuras de datos más frecuentes en entornos reales.
Estadística Frecuentista frente a Bayesiana: Introducir las dos grandes filosofías e interpretaciones de la probabilidad.

Estimación frente a Inferencia Estadística

Es común confundir estos dos términos, pero representan alcances analíticos profundamente diferentes.

Estimación (Estimation)

La estimación consiste simplemente en calcular un parámetro específico (como la media o la varianza) utilizando exclusivamente los datos disponibles en nuestra muestra. Un estimador puntual nos da un único valor numérico.

Por ejemplo, la media muestral ($\bar{x}$) se calcula mediante la suma de todos los valores observados en una columna dividida por el número total de observaciones ($n$):

$$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$$

La estimación se limita a describir y resumir numéricamente la muestra que tenemos sobre la mesa.

Inferencia Estadística (Inference)

La inferencia es un proceso mucho más amplio. Su objetivo no es solo calcular un número, sino comprender la distribución subyacente de la población completa a partir de una muestra pequeña, midiendo el grado de incertidumbre de dicha afirmación.

Para lograrlo, la inferencia evalúa otras propiedades estadísticas fundamentales como el error estándar ($SE$), el cual mide cuánto varía la media muestral respecto a la verdadera media poblacional.

3. Convergencia con el Machine Learning

El Machine Learning y la inferencia estadística están íntimamente entrelazados; de hecho, gran parte del ML moderno se construyó sobre los cimientos matemáticos de la estadística tradicional, mucho antes de que existiera la capacidad de cómputo actual.

En ambas disciplinas se utiliza una muestra de datos histórica para deducir las cualidades de un proceso generador de datos en el mundo real.

         Proceso Generador de Datos (Mundo Real / Población)
                                │
                                ▼ [Muestreo]
                         Muestra de Datos
                                │
        ┌───────────────────────┴───────────────────────┐
        ▼                                               ▼
Inferencia Estadística                          Machine Learning
Enfoque: Comprender parámetros                 Enfoque: Optimizar predicciones
y efectos individuales.                         y métricas de salida.

         Proceso Generador de Datos (Mundo Real / Población)
                                │
                                ▼ [Muestreo]
                         Muestra de Datos
                                │
        ┌───────────────────────┴───────────────────────┐
        ▼                                               ▼
Inferencia Estadística                          Machine Learning
Enfoque: Comprender parámetros                 Enfoque: Optimizar predicciones
y efectos individuales.                         y métricas de salida.

Los modelos de ML enfocados en la interpretabilidad (entender el impacto exacto de cada variable) dependen por completo de herramientas de inferencia estadística.
Los modelos de ML enfocados puramente en el rendimiento predictivo (cajas negras) minimizan la interpretación de los parámetros internos y se centran casi exclusivamente en la optimización del resultado final (estimaciones puntuales).

Caso de Negocio: Predicción de Abandono de Clientes (Customer Churn)

Para aterrizar estos conceptos en el ámbito empresarial, utilizaremos un caso de estudio clásico: la predicción del Churn (abandono de clientes). En este escenario, buscamos identificar qué usuarios tienen una alta probabilidad de cancelar sus contratos para actuar antes de que se marchen.

Variable Objetivo ($y$): Variable binaria que indica si el cliente abandonó la empresa (1) o permaneció en ella (0).
Variables Predictoras o Características ($X$): * Antigüedad del cliente (tiempo de permanencia).
- Tipo y volumen financiero de las compras realizadas.
- Características demográficas (edad, ubicación geográfica, etc.).

El modelo analiza estas variables y genera un score de riesgo para cada individuo, el cual representa la probabilidad matemática de abandono (donde 0.99 indica un abandono casi seguro y 0.01 indica fidelidad absoluta).

Aplicación Práctica: Estimación vs. Inferencia en Churn

¿Cómo se comportan la estimación y la inferencia al analizar la variable de antigüedad del cliente en este modelo?

El Enfoque de la Estimación

El modelo nos ofrece una estimación puntual del impacto de la característica:

“Por cada año adicional que un usuario permanece como cliente, la probabilidad de abandono disminuye en un 20%.”

El Enfoque de la Inferencia

La inferencia no se conforma con ese 20%. Expande el análisis calculando la significancia estadística y un intervalo de confianza (IC) del 95% para evaluar la certidumbre de ese número. Esto puede dar lugar a dos escenarios muy distintos:

Escenario A: Alta Certeza Estadísticas

Resultado del IC (95%): Entre 19% y 21%.
Interpretación: El intervalo es estrecho y rodea de cerca nuestra estimación del 20%. Podemos concluir con alta confianza que la antigüedad tiene un efecto protector real, sólido y predecible sobre la retención de clientes.

Escenario B: Alta Incertidumbre (Baja Significancia)

Resultado del IC (95%): Entre -10% (el riesgo sube) y 50% (el riesgo baja drásticamente).
Interpretación: Aunque la estimación puntual inicial fue del 20%, el intervalo nos revela que no hay datos suficientes para sostenerla. El efecto real podría ser negativo o extremadamente alto; la variabilidad es tan grande que la estimación carece de validez estadística para la toma de decisiones estratégicas.

Caso de Estudio Práctico: Datos de Churn en Telecomunicaciones

Para profundizar en el análisis exploratorio de datos (EDA) orientado a la inferencia, trabajaremos con el dataset ficticio Telco Customer Churn de IBM Cognos Analytics. Este conjunto de datos registra las características operacionales y demográficas de los clientes de una compañía de telecomunicaciones.

Variables Principales del Dataset

El set de datos se encuentra estructurado dentro de un DataFrame de Pandas bajo la variable df_phone y contiene las siguientes características (features):

Características de Cuenta: Tipo de contrato y método de pago elegido.
Métricas de Ingreso: Facturación mensual y el Valor del Tiempo de Vida del Cliente (CLTV), que calcula la suma total de ingresos que el usuario representa durante toda su relación comercial con la empresa.
Métricas de Satisfacción: Puntuación de satisfacción otorgada por el usuario.
Uso de Datos: Gigabytes mensuales consumidos.
Variable Objetivo (churn_value): Binaria. Indica si el cliente abandonó la compañía (1) o permaneció activo (0).
Categorías de Abandono: Clasificación del tipo de baja (por ejemplo, cancelación activa frente a la no renovación de una suscripción).

Análisis Exploratorio de Datos (EDA) para Inferencia

A través de la visualización de datos, buscaremos inferir de manera preliminar qué factores influyen en la retención de los usuarios.

Impacto del Método de Pago en el Abandono

Utilizando gráficos de barras, analizamos la tasa de abandono en función del método de pago.

Al examinar la gráfica, surge un patrón claro: los clientes que pagan con tarjeta de crédito presentan una probabilidad de abandono significativamente menor en comparación con aquellos que utilizan transferencias bancarias automatizadas o cheques por correo. El método de pago sirve como un indicador inicial del nivel de vinculación del cliente.

Segmentación de la Antigüedad con `pd.cut`

Para evaluar cómo influye el tiempo de permanencia en el abandono mediante un gráfico de barras, es necesario transformar la variable continua de meses en rangos discretos o categorías. La función pd.cut() de Pandas divide la columna de meses en 5 contenedores (bins) de igual longitud:

import pandas as pd
import seaborn as sns

# Segmentar la variable continua de meses en 5 rangos categóricos
df_phone['rango_meses'] = pd.cut(df_phone['months_as_customer'], bins=5)

# Graficar el porcentaje de abandono por cada rango de antigüedad
sns.barplot(x='rango_meses', y='churn_value', data=df_phone)

import pandas as pd
import seaborn as sns

# Segmentar la variable continua de meses en 5 rangos categóricos
df_phone['rango_meses'] = pd.cut(df_phone['months_as_customer'], bins=5)

# Graficar el porcentaje de abandono por cada rango de antigüedad
sns.barplot(x='rango_meses', y='churn_value', data=df_phone)

La visualización de estos bloques revela una relación inversamente proporcional: los usuarios que se encuentran en el primer bloque (menor antigüedad, entre $0$ y $15$ meses) muestran la tasa de abandono más alta. A medida que el cliente supera los umbrales de tiempo y avanza hacia los bloques de mayor permanencia, la probabilidad de churn cae drásticamente.

Visualización de Relaciones Multivariables

Gráfico de Pares (Pair Plot)

El gráfico de pares (sns.pairplot) permite evaluar las distribuciones individuales y los cruces cruzados de múltiples variables numéricas simultáneamente. En este análisis seleccionamos: la antigüedad en meses, los gigabytes consumidos, el ingreso total, el CLTV y la variable objetivo.

Para segmentar la información, aplicamos el parámetro hue='churn_value', el cual divide y colorea los datos según su estado de permanencia:

Azul (0): Clientes retenidos (Permanecen en la empresa).
Verde (1): Clientes perdidos (Churn).

Al observar las esquinas de la matriz de gráficos (especialmente el cruce de antigüedad), se aprecia visualmente cómo la masa de puntos verdes (bajas) se concentra fuertemente en los valores de tenencia más bajos, confirmando de manera gráfica la consistencia del comportamiento de abandono temprano.

Densidad con Gráficos Hexagonales (Hexbin Joint Plot)

Cuando manejamos miles de registros, los gráficos de dispersión tradicionales sufren de saturación de puntos (overplotting), impidiendo ver dónde se concentra la mayor densidad de la población. Para resolverlo, el gráfico de compartimentos hexagonales (hexbin) agrupa los puntos en celdas hexagonales y asigna una intensidad de color proporcional a la cantidad de registros en esa zona.

Evaluamos el cruce entre la antigüedad en meses ($x$) y el cargo mensual ($y$) mediante un sns.jointplot:

Python

# Crear un gráfico de densidad hexagonal con distribuciones marginales
sns.jointplot(x='months_as_customer', y='monthly_charge', data=df_phone, kind='hex')

# Crear un gráfico de densidad hexagonal con distribuciones marginales
sns.jointplot(x='months_as_customer', y='monthly_charge', data=df_phone, kind='hex')

El gráfico muestra las distribuciones de cada variable en los márgenes superior y derecho, revelando una estructura con dos grandes focos de alta densidad (colores más oscuros):

Zona Superior Derecha: Representa un grupo denso de clientes consolidados, caracterizados por una alta antigüedad y cargos mensuales elevados.
Zona Inferior Izquierda / Media: Revela un volumen importante de clientes nuevos (poca antigüedad) que ingresan directamente con tarifas mensuales superiores al promedio.
Zona Intermedia: Presenta una densidad notablemente baja, lo que indica que hay pocos clientes en situaciones intermedias de precio y permanencia.

Este análisis exploratorio nos proporciona una perspectiva clara sobre las dinámicas de la cartera de clientes. En la siguiente sección, profundizaremos en los fundamentos teóricos que diferencian a los modelos bajo los enfoques de Estadística Paramétrica y No Paramétrica.

Modelos Paramétricos vs. No Paramétricos

Dentro del campo de la inferencia estadística y el aprendizaje automático, los modelos se dividen en dos grandes filosofías dependiendo de las suposiciones que hagamos sobre el proceso generador de datos.

A. Modelos Paramétricos

Un modelo paramétrico asume que los datos siguen una estructura matemática predefinida y conocida.

Características principales: Sus parámetros son finitos y fijos (no cambian de número según el tamaño de la muestra). Además, dependen de supuestos estrictos sobre la distribución de origen.
Ejemplos: * Regresión Lineal por Mínimos Cuadrados Ordinarios (OLS): Antes de entrenar, fijamos el número de coeficientes ($\beta$) según el número de características. El modelo asume rígidamente una relación lineal y que los residuos se distribuyen normalmente.
- Distribución Normal: Se define por una ecuación matemática exacta que depende únicamente de dos parámetros: la media ($\mu$) y la desviación estándar ($\sigma$).

$$\mathit{f}(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$

Ventaja: Al tener restricciones fuertes, son matemáticamente más sencillos y rápidos de resolver con pocos datos.

Desventaja: Si los datos reales no cumplen las suposiciones teóricas (por ejemplo, si la relación no es lineal), el modelo arrojará resultados sesgados y erróneos.

Modelos No Paramétricos

Los modelos no paramétricos no limitan los datos a una forma geométrica o matemática rígida. Se conocen también como modelos de inferencia libre de distribución (distribution-free inference).

Características principales: El número de parámetros puede crecer a medida que recopilamos más datos. No asumen curvas preestablecidas (como una campana de Gauss o una línea recta), sino que construyen la forma basándose directamente en la muestra disponible.
Ejemplo visual: La creación de un histograma para aproximar la Función de Distribución Acumulada (CDF). No forzamos a los datos a ser normales; dejamos que las barras del histograma tracen la verdadera silueta del fenómeno.

Ventaja: Alta flexibilidad para modelar relaciones extremadamente complejas en el mundo real.

Desventaja: Requieren volúmenes de datos mucho mayores para alcanzar conclusiones sólidas y estables.

Aplicación al Caso de Negocio: Valor del Tiempo de Vida del Cliente (CLTV)

El Customer Lifetime Value (CLTV) estima el valor financiero neto que un usuario aportará a la empresa a lo largo de toda su relación comercial. Calcularlo requiere predecir dos factores de alta incertidumbre: cuánto tiempo se mantendrá activo el cliente y cuánto gastará en ese periodo.

Enfoque Paramétrico: Podríamos asumir que el gasto del cliente decae de forma estrictamente lineal o exponencial con el tiempo. Ajustamos los datos a esa fórmula fija y proyectamos el CLTV. Es útil si tenemos pocos datos históricos.
Enfoque No Paramétrico: No asumimos ninguna curva de decaimiento. Dejamos que algoritmos avanzados analicen los patrones masivos de comportamiento de los usuarios históricos para trazar libremente las tendencias de gasto, sin importar qué tan irregulares sean. Reclama bases de datos muy robustas.

Estimación por Máxima Verosimilitud (MLE)

En los modelos paramétricos, el método estándar para calcular los parámetros óptimos es la Estimación por Máxima Verosimilitud (Maximum Likelihood Estimation o MLE).

La función de verosimilitud invierte la lógica tradicional de la probabilidad: toma los datos observados en nuestra muestra como un hecho fijo y se pregunta: “¿Cuáles tendrían que ser los parámetros reales ($\mu$ y $\sigma$) de la población para que esta muestra específica sea lo más probable de ocurrir?”

El algoritmo calcula y selecciona los valores exactos de los parámetros que maximizan esa probabilidad estructural.

Distribuciones Estadísticas Comunes en el Mundo Real

A continuación, analizaremos las formas y comportamientos de las distribuciones más utilizadas para describir fenómenos reales:

Distribución Uniforme

Todos los resultados posibles dentro de un rango definido tienen exactamente la misma probabilidad de ocurrir.

Ejemplo clásico: Lanzar un dado de 6 caras. Obtener un 1 tiene la misma probabilidad ($\frac{1}{6}$) que obtener un 3, un 4 o un 6. La gráfica de densidad es completamente plana.

Distribución Normal (o Gaussiana)

Es la célebre curva en forma de campana. Los valores más probables se concentran fuertemente alrededor de la media ($\mu$). Conforme nos alejamos de ella hacia los extremos izquierdo o derecho, la probabilidad disminuye de manera simétrica.

Parámetros: La media determina la ubicación del centro en el eje gráfico; la desviación estándar determina la dispersión. Una desviación pequeña genera una curva alta y estilizada; una desviación grande produce una campana achatada y extendida.
Teorema del Límite Central: Es la razón de su popularidad. Establece que si extraemos múltiples muestras aleatorias de cualquier población (incluso de una con una distribución no normal) y calculamos sus medias, la distribución de esas medias muestrales convergerá hacia una distribución normal a medida que el tamaño de la muestra aumente.
Ejemplo real: La estatura de la población humana. La mayoría se sitúa cerca del promedio, siendo extremadamente raro encontrar personas de 2.20 metros o de 1.10 metros.

Distribución Log-Normal

Ocurre cuando la variable original presenta un fuerte sesgo positivo (una cola larga hacia la derecha), pero al aplicar una transformación logarítmica sobre ella, los valores resultantes adoptan una distribución normal perfecta.

Relación con la dispersión: Si la desviación estándar es muy pequeña, la curva se comprime y se asemeja bastante a una normal; si es grande, la cola derecha se extiende notablemente.
Ejemplo real: La distribución de los ingresos económicos de un país. La mediana se sitúa en rangos de clase media o trabajadora (parte alta de la curva a la izquierda), pero existe una cola larga hacia la derecha provocada por los ingresos extraordinarios de los multimillonarios.

Distribución Exponencial

Describe variables continuas donde los valores más altos se agrupan en el extremo izquierdo y decaen de forma constante a lo largo del eje. Se utiliza principalmente para medir el tiempo transcurrido entre eventos sucesivos.

Ejemplo real: El tiempo de espera entre las reproducciones de este video. Es muy común que un usuario entre un minuto después del anterior; sin embargo, es poco probable (cola larga) que transcurran intervalos de 15 o 20 minutos sin registros antes de que llegue el siguiente espectador.

E. Distribución de Poisson

A diferencia de la exponencial, la distribución de Poisson es discreta y mide el número de veces que ocurre un evento dentro de un intervalo constante de tiempo o espacio.

Parámetro Lambda ($\lambda$): Representa simultáneamente la media y la varianza de los datos.
Ejemplo real: ¿Cuántos usuarios reproducirán este video en los próximos 10 minutos? Si $\lambda = 1$, la densidad se concentrará de forma estrecha indicando que lo habitual es recibir un solo usuario en ese lapso. Si $\lambda = 10$, la desviación estándar se ensancha, abriendo la posibilidad de registrar de forma habitual entre 5 y 15 usuarios por intervalo.

Estadística Frecuentista vs. Estadística Bayesiana

La distinción entre la estadística frecuentista y la bayesiana radica en cómo interpretan el concepto de probabilidad. Mientras que una se enfoca en la repetición infinita de experimentos, la otra modela la probabilidad como un grado de creencia que se actualiza con la evidencia.

Para entender la diferencia operativa en el entorno empresarial, utilizaremos como analogía la Teoría de Colas (Queuing Theory).

¿Qué es la Teoría de Colas?

Es el estudio matemático de las líneas de espera. Permite a las empresas calcular cuántos recursos o “servidores” necesitan para procesar una demanda y evitar cuellos de botella.

Ejemplos: Determinar cuántos cajeros abrir en un supermercado, cuántos servidores web desplegar para responder peticiones sin caídas, o cuántos agentes de soporte asignar a un centro de llamadas.

Tanto bajo el enfoque frecuentista como el bayesiano, el flujo de llegada de clientes en un tiempo fijo se modela mediante una Distribución de Poisson. Sin embargo, la estimación del parámetro $\lambda$ (la tasa promedio de llegadas) se aborda de formas completamente distintas.

El Enfoque Frecuentista

Para un frecuentista, la probabilidad está ligada a la frecuencia relativa a largo plazo de un evento mediante la repetición matemática infinita de un experimento.

Supuesto Inicial: Se inicia el análisis sin ninguna idea previa (prior) sobre la probabilidad o el parámetro que se desea estimar.
El Parámetro es Fijo: En la población real, el parámetro verdadero (por ejemplo, el promedio exacto de clientes que llegan por minuto) es un valor único, fijo e inmutable.
Dependencia de la Muestra: La estimación se deriva directamente de los datos observados, sin influencias externas. La incertidumbre no recae en el parámetro, sino en la muestra: nos preguntamos qué tan probable es que nuestro muestreo haya “capturado” el parámetro real de la población.
En la Teoría de Colas: No asumimos saber cuántos clientes visitan la tienda. Registramos meticulosamente los tiempos de espera durante semanas. Si la muestra es lo suficientemente grande, los datos revelarán por sí solos la tasa de llegada real, permitiendo calibrar la cantidad de servidores.

El Enfoque Bayesiano

Para un bayesiano, la probabilidad no es una frecuencia de eventos repetidos, sino una medida del grado de certeza o creencia que se tiene sobre un fenómeno.

Los Parámetros son Variables Aleatorias: El parámetro real no se considera un número fijo, sino una variable que posee su propia distribución de probabilidad.
Incorporación de Conocimiento Previo (Prior): Permite al analista integrar sus creencias o conocimientos empíricos previos antes de observar los datos actuales.
Actualización Dinámica: A medida que ingresa nueva información, la certeza sobre el parámetro se refina, concentrando la distribución de probabilidad en un rango más estrecho.

El proceso bayesiano sigue un flujo de actualización estructurado:

$$\text{Prior (Distribución Previa)} + \text{Datos (Evidencia)} \rightarrow \text{Posterior (Distribución Posterior)}$$

Distribución Previa (Prior): Nuestra hipótesis u observación empírica inicial (por ejemplo, el gerente estima, por experiencia, que llegan unos 10 clientes por hora).
Evidencia: Los datos duros que se recolectan en tiempo real en el negocio.
Distribución Posterior (Posterior): El resultado de actualizar el Prior con los Datos. Representa la nueva estimación optimizada del parámetro.
En la Teoría de Colas: Permite iniciar operaciones el primer día basándose en una estimación intuitiva o en datos de sucursales similares (Prior). Conforme pasan las horas y el sistema registra las llegadas reales (Datos), el modelo automatiza la actualización hacia una curva de recursos óptima (Posterior).

Resumen del Módulo de Inferencia Estadística

Hemos concluido la base teórica del análisis estadístico inferencial aplicado a la ciencia de datos. A lo largo de estas secciones hemos cubierto:

Inferencia vs. Estimación: Cómo el Machine Learning se enfoca con frecuencia en la precisión de la estimación (predicción), mientras que la inferencia busca desentrañar el proceso biológico o comercial generador de los datos.
Modelos Paramétricos vs. No Paramétricos: El balance entre modelos de parámetros finitos con supuestos rígidos (como la regresión lineal y la estimación por máxima verosimilitud) y la flexibilidad de los modelos libres de distribución.
Distribuciones en el Mundo Real: La identificación y uso práctico de las estructuras Uniforme, Normal, Log-Normal, Exponencial y de Poisson dentro del entorno de negocios (como el cálculo del CLTV).
Frecuentista vs. Bayesiano: Las dos grandes interpretaciones de la probabilidad que dictan cómo estimar la incertidumbre de nuestros parámetros.

En el próximo módulo, aplicaremos estas dos estructuras de pensamiento para profundizar en el desarrollo de Pruebas de Hipótesis (Hypothesis Testing).