Standard Scaling (Z-Score) – fernandorioseco.es

Contenido

Una de las técnicas más utilizadas para resolver rl problema de variables que poseen escalas muy diferentes, es la estandarización mediante Z-Score, también conocida como Standardization o Standard Scaling. A diferencia de Min-Max Scaling, esta técnica no transforma los datos a un rango fijo, sino que los centra alrededor de la media y los escala utilizando la desviación estándar.

¿Qué es Standardization (Z-Score)?

La estandarización es una técnica de escalado que transforma una variable para que tenga:

Media igual a 0.
Desviación estándar igual a 1.
Una escala comparable con otras variables del conjunto de datos.

Tras la transformación, los valores dejan de representar las unidades originales y pasan a indicar cuántas desviaciones estándar se encuentran por encima o por debajo de la media.

Esta técnica es especialmente útil cuando se desea comparar variables con unidades diferentes o cuando se utilizan algoritmos sensibles a la magnitud de las características.

¿Cómo Funciona?

La estandarización calcula la distancia de cada observación respecto a la media de la variable y posteriormente divide dicha distancia por la desviación estándar.

La fórmula utilizada es:

$$z=\frac{x-\mu}{\sigma}$$

Donde:

x es el valor original.
μ es la media de la variable.
σ es la desviación estándar.
z es el valor estandarizado.

El resultado indica la posición relativa de una observación dentro de la distribución.

Interpretación del Z-Score

Después de la transformación:

Un valor de 0 indica que la observación coincide con la media.
Un valor positivo indica que está por encima de la media.
Un valor negativo indica que está por debajo de la media.
Un valor de 2 significa que la observación se encuentra a dos desviaciones estándar por encima de la media.

Ejemplo Práctico

Supongamos una variable que representa edades:

edad = [20, 30, 40, 50, 60]
media = 40
std_desviation = 14.14

edad_zscore = [-1.41, -0.71, 0.00, 0.71, 1.41]

edad = [20, 30, 40, 50, 60]
media = 40
std_desviation = 14.14

edad_zscore = [-1.41, -0.71, 0.00, 0.71, 1.41]

Ahora todas las observaciones están expresadas en función de su distancia respecto a la media.

Beneficios de Standardization

Entre las principales ventajas de esta técnica destacan:

Permite comparar variables con unidades completamente diferentes.
Centra los datos alrededor de la media.
Facilita el entrenamiento de algoritmos basados en gradientes.
Reduce los problemas derivados de diferencias de escala.
Mejora la estabilidad numérica de muchos modelos.
Favorece la convergencia de algoritmos de optimización.
Es una de las técnicas de escalado más utilizadas en Machine Learning.

¿Cuándo Utilizar Standardization?

Las variables presentan escalas muy diferentes.
Se utilizan algoritmos sensibles a la magnitud de las características.
Los datos tienen una distribución aproximadamente normal.
Se desea comparar la importancia relativa de diferentes variables.
Se trabaja con métodos basados en distancia o componentes principales.

Es especialmente útil cuando la distribución de los datos no necesita ser comprimida, sino simplemente escalada.

Ventajas

Conserva la forma de la distribución original.
Facilita la comparación entre variables.
Es adecuada para variables con distribuciones aproximadamente normales.
Mejora el rendimiento de numerosos algoritmos de Machine Learning.
No restringe los datos a un rango fijo.

Desventajas

Es sensible a valores atípicos.
Los outliers pueden afectar la media y la desviación estándar.
No corrige distribuciones altamente sesgadas.
No reduce el impacto de observaciones extremas.
No garantiza una distribución normal.
Los valores transformados pueden ser difíciles de interpretar para usuarios de negocio.

Limitaciones

No elimina outliers.
No corrige problemas de asimetría.
No modifica la forma de la distribución.
Puede verse afectada por valores extremos.
No siempre es la mejor opción para datos con distribuciones muy sesgadas.

En escenarios con muchos outliers suele ser preferible utilizar técnicas como RobustScaler.

Aplicaciones en Data Science y Machine Learning

La estandarización es especialmente útil en:

Regresión Lineal.
Regresión Logística.
Support Vector Machines (SVM).
Redes Neuronales.
PCA (Principal Component Analysis).
K-Means.
K-Nearest Neighbors (KNN).
Análisis de Clustering.
Métodos basados en gradientes.

En estos algoritmos, la escala de las variables influye directamente sobre el rendimiento y la estabilidad del entrenamiento.

Comparación con Min-Max Scaling

Característica	Standardization	Min-Max Scaling
Media centrada en 0	Sí	No
Desviación estándar igual a 1	Sí	No
Rango fijo	No	Sí
Sensible a outliers	Sí	Sí
Conserva distribución	Sí	Sí
Fácil interpretación relativa	Alta	Media
Adecuado para PCA	Sí	Sí
Adecuado para redes neuronales	Sí	Sí

Implementación en Python

Aplicación Básica con Scikit-Learn

from sklearn.preprocessing import StandardScaler
import pandas as pd

df = pd.DataFrame({
    "edad": [20, 30, 40, 50, 60]
})

scaler = StandardScaler()

df["edad_estandarizada"] = scaler.fit_transform(df[["edad"]])

print(df)

from sklearn.preprocessing import StandardScaler
import pandas as pd

df = pd.DataFrame({
    "edad": [20, 30, 40, 50, 60]
})

scaler = StandardScaler()

df["edad_estandarizada"] = scaler.fit_transform(df[["edad"]])

print(df)

Escalado de varias variables

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

Obtener la Media y la Desviación Estándar

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(X)

print(scaler.mean_)
print(scaler.scale_)

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(X)

print(scaler.mean_)
print(scaler.scale_)

Uso dentro de un Pipeline

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

pipeline = Pipeline([
    ("scaler", StandardScaler()),
    ("model", LogisticRegression())
])

pipeline.fit(X_train, y_train)

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

pipeline = Pipeline([
    ("scaler", StandardScaler()),
    ("model", LogisticRegression())
])

pipeline.fit(X_train, y_train)

Esta es la práctica recomendada para evitar fugas de información (data leakage) entre los conjuntos de entrenamiento y prueba.

Buenas Prácticas

Ajustar el escalador únicamente con los datos de entrenamiento.
Aplicar la misma transformación a los datos de validación y prueba.
Analizar previamente la presencia de outliers.
Comparar su rendimiento frente a Min-Max Scaling y RobustScaler.
Integrar la transformación dentro de un Pipeline.
Evaluar el impacto del escalado sobre el rendimiento del modelo.

Conclusión

La estandarización mediante Z-Score es una de las técnicas de escalado más importantes y utilizadas en Machine Learning. Su objetivo es centrar las variables alrededor de una media de cero y una desviación estándar de uno, permitiendo que todas las características contribuyan de forma equilibrada al entrenamiento de los modelos.

Gracias a su simplicidad, interpretabilidad y compatibilidad con numerosos algoritmos, Standardization se ha convertido en una herramienta fundamental dentro de cualquier proceso moderno de preparación de datos. Aunque no corrige problemas de asimetría ni elimina valores atípicos, constituye una excelente opción cuando se necesita trabajar con variables en escalas comparables y mejorar la estabilidad de los algoritmos de aprendizaje automático.