Discretización Equal Width – fernandorioseco.es

Contenido

Conversión de Variables Continuas en Intervalos de Igual Amplitud

En Data Science y Machine Learning, muchas variables numéricas son continuas y pueden tomar una gran cantidad de valores diferentes. Aunque esta precisión suele ser útil, existen situaciones en las que resulta conveniente simplificar la información agrupando los valores en categorías o intervalos.

Este proceso se conoce como discretización (discretization o binning) y consiste en transformar una variable continua en una variable categórica. Una de las técnicas más sencillas y utilizadas es la Discretización Equal Width, también conocida como Binning de Anchura Igual.

La idea principal es dividir el rango completo de una variable en intervalos del mismo tamaño, facilitando el análisis, la interpretación y, en algunos casos, el rendimiento de determinados algoritmos.

¿Qué es la discretización Equal Width?

La discretización Equal Width es una técnica que divide el rango de una variable continua en un número determinado de intervalos, donde todos los intervalos tienen exactamente la misma amplitud.

Por ejemplo, si una variable tiene valores comprendidos entre 0 y 100 y deseamos crear cinco intervalos, cada uno tendrá una amplitud de 20 unidades. Los intervalos serían:

Intervalo
0 – 20
20 – 40
40 – 60
60 – 80
80 – 100

Cada observación se asigna posteriormente al intervalo correspondiente.

¿Cómo Funciona?

El procedimiento consta de varios pasos:

Identificar el valor mínimo de la variable.
Identificar el valor máximo de la variable.
Definir el número de intervalos deseado.
Calcular la amplitud de cada intervalo.
Asignar cada observación a su intervalo correspondiente.

La amplitud de cada intervalo se calcula mediante:

$$\text{Amplitud}=\frac{x_{max}-x_{min}}{k}$$

Donde:

xmin es el valor mínimo.
xmax es el valor máximo.
k es el número de intervalos.

Ahora cada persona queda representada por una categoría en lugar de una edad exacta.

Ejemplo con Datos Reales: Supongamos la siguiente variable:

Si creamos tres intervalos:

Mínimo = 20000
Máximo = 50000

Mínimo = 20000
Máximo = 50000

La amplitud será:

$$\frac{50000-20000}{3}=10000$$

Los intervalos serían:

Categoría	Rango
Bajo	20000 – 30000
Medio	30000 – 40000
Alto	40000 – 50000

La variable continua pasa a convertirse en una variable categórica más fácil de interpretar.

Beneficios de la Discretización Equal Width

Simplifica variables complejas.
Facilita la interpretación de los datos.
Reduce el ruido presente en variables continuas.
Puede mejorar la visualización de los datos.
Ayuda a construir reglas de negocio más comprensibles.
Facilita la creación de segmentos o perfiles.
Puede mejorar la robustez de algunos modelos.

¿Cuándo Utilizar Equal Width?

Se necesita simplificar variables numéricas.
El análisis requiere categorías fácilmente interpretables.
Se desea construir reglas de negocio.
Se crean segmentos de clientes o productos.
La distribución de los datos es relativamente uniforme.
La precisión exacta de los valores no es necesaria.

También es habitual en análisis descriptivos y cuadros de mando.

Ventajas

Fácil de entender.
Fácil de implementar.
Genera intervalos intuitivos.
Mantiene límites regulares.
Adecuada para visualización de datos.
Computacionalmente eficiente.
Funciona correctamente en distribuciones relativamente homogéneas.

Desventajas

No tiene en cuenta la distribución de los datos.
Puede generar intervalos casi vacíos.
Puede concentrar demasiadas observaciones en un único grupo.
Es sensible a valores extremos.
Los outliers pueden distorsionar significativamente los intervalos.
No garantiza una distribución equilibrada entre categorías.

Limitaciones

Antes de aplicar Equal Width es importante considerar que:

No adapta los intervalos a la densidad de los datos.
Puede generar categorías poco representativas.
No corrige asimetrías.
No elimina valores extremos.
No mejora necesariamente el rendimiento predictivo.
Puede perder información relevante al reducir la granularidad.

Por este motivo, cuando la distribución es muy desigual suele ser preferible utilizar técnicas como Equal Frequency Binning.

Comparación con Equal Frequency

Las dos técnicas de discretización más utilizadas son Equal Width y Equal Frequency.

Característica	Equal Width	Equal Frequency
Tamaño de intervalos	Igual	Variable
Número de observaciones por intervalo	Variable	Similar
Sensible a outliers	Sí	Menos
Fácil interpretación	Alta	Media
Considera distribución de datos	No	Sí
Implementación	Muy simple	Más compleja

La principal diferencia es que Equal Width divide el rango de valores, mientras que Equal Frequency divide las observaciones.

Aplicaciones en Data Science y Machine Learning

Análisis Exploratorio de Datos (EDA).
Segmentación de clientes.
Cuadros de mando y reporting.
Modelos de scoring.
Sistemas de recomendación.
Visualización de distribuciones.
Ingeniería de características.
Sistemas de clasificación basados en reglas.

También es habitual en sectores como banca, seguros, marketing y recursos humanos.

Implementación en Python

Utilizando Pandas

La forma más sencilla es mediante la función cut().

import pandas as pd

df = pd.DataFrame({
    "edad": [18, 22, 30, 35, 42, 50, 68]
})

df["grupo_edad"] = pd.cut(
    df["edad"],
    bins=5
)

print(df)

import pandas as pd

df = pd.DataFrame({
    "edad": [18, 22, 30, 35, 42, 50, 68]
})

df["grupo_edad"] = pd.cut(
    df["edad"],
    bins=5
)

print(df)

Asignando Etiquetas Personalizadas

import pandas as pd

df["grupo_edad"] = pd.cut(
    df["edad"],
    bins=5,
    labels=[
        "Muy Joven",
        "Joven",
        "Adulto",
        "Maduro",
        "Senior"
    ]
)

import pandas as pd

df["grupo_edad"] = pd.cut(
    df["edad"],
    bins=5,
    labels=[
        "Muy Joven",
        "Joven",
        "Adulto",
        "Maduro",
        "Senior"
    ]
)

Obteniendo los Límites de los Intervalos

import pandas as pd

categorias, limites = pd.cut(
    df["edad"],
    bins=5,
    retbins=True
)

print(limites)

import pandas as pd

categorias, limites = pd.cut(
    df["edad"],
    bins=5,
    retbins=True
)

print(limites)

Implementación con Scikit-Learn

from sklearn.preprocessing import KBinsDiscretizer

discretizador = KBinsDiscretizer(
    n_bins=5,
    encode="ordinal",
    strategy="uniform"
)

X_transformado = discretizador.fit_transform(X)

from sklearn.preprocessing import KBinsDiscretizer

discretizador = KBinsDiscretizer(
    n_bins=5,
    encode="ordinal",
    strategy="uniform"
)

X_transformado = discretizador.fit_transform(X)

En Scikit-Learn, la estrategia "uniform" corresponde a Equal Width.

Uso dentro de un Pipeline

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.linear_model import LogisticRegression

pipeline = Pipeline([
    (
        "binning",
        KBinsDiscretizer(
            n_bins=5,
            strategy="uniform",
            encode="ordinal"
        )
    ),
    (
        "modelo",
        LogisticRegression()
    )
])

pipeline.fit(X_train, y_train)

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.linear_model import LogisticRegression

pipeline = Pipeline([
    (
        "binning",
        KBinsDiscretizer(
            n_bins=5,
            strategy="uniform",
            encode="ordinal"
        )
    ),
    (
        "modelo",
        LogisticRegression()
    )
])

pipeline.fit(X_train, y_train)

Buenas Prácticas

Analizar previamente la distribución de la variable.
Identificar posibles valores extremos.
Seleccionar un número razonable de intervalos.
Evaluar el equilibrio de observaciones por categoría.
Comparar los resultados con Equal Frequency.
Verificar si la discretización mejora la interpretabilidad o el rendimiento del modelo.

Conclusión

La Discretización Equal Width es una técnica sencilla y ampliamente utilizada para transformar variables continuas en categorías mediante intervalos de igual amplitud. Su principal objetivo es simplificar la información, facilitar la interpretación y permitir la creación de segmentos fácilmente comprensibles.

Aunque presenta limitaciones importantes cuando existen distribuciones muy sesgadas o valores extremos, sigue siendo una herramienta útil en análisis exploratorios, segmentación de datos y procesos de ingeniería de características. Utilizada correctamente, puede ayudar a convertir datos complejos en información más accesible tanto para analistas como para usuarios de negocio.