Una de las técnicas más utilizadas para resolver rl problema de variables que poseen escalas muy diferentes, es la estandarización mediante Z-Score, también conocida como Standardization o Standard Scaling. A diferencia de Min-Max Scaling, esta técnica no transforma los datos a un rango fijo, sino que los centra alrededor de la media y los escala utilizando la desviación estándar.
¿Qué es Standardization (Z-Score)?
La estandarización es una técnica de escalado que transforma una variable para que tenga:
- Media igual a 0.
- Desviación estándar igual a 1.
- Una escala comparable con otras variables del conjunto de datos.
Tras la transformación, los valores dejan de representar las unidades originales y pasan a indicar cuántas desviaciones estándar se encuentran por encima o por debajo de la media.
Esta técnica es especialmente útil cuando se desea comparar variables con unidades diferentes o cuando se utilizan algoritmos sensibles a la magnitud de las características.

¿Cómo Funciona?
La estandarización calcula la distancia de cada observación respecto a la media de la variable y posteriormente divide dicha distancia por la desviación estándar.
La fórmula utilizada es:
$$z=\frac{x-\mu}{\sigma}$$
Donde:
- x es el valor original.
- μ es la media de la variable.
- σ es la desviación estándar.
- z es el valor estandarizado.
El resultado indica la posición relativa de una observación dentro de la distribución.
Interpretación del Z-Score
Después de la transformación:
- Un valor de 0 indica que la observación coincide con la media.
- Un valor positivo indica que está por encima de la media.
- Un valor negativo indica que está por debajo de la media.
- Un valor de 2 significa que la observación se encuentra a dos desviaciones estándar por encima de la media.
Ejemplo Práctico
Supongamos una variable que representa edades:
edad = [20, 30, 40, 50, 60]
media = 40
std_desviation = 14.14
edad_zscore = [-1.41, -0.71, 0.00, 0.71, 1.41]Ahora todas las observaciones están expresadas en función de su distancia respecto a la media.
Beneficios de Standardization
Entre las principales ventajas de esta técnica destacan:
- Permite comparar variables con unidades completamente diferentes.
- Centra los datos alrededor de la media.
- Facilita el entrenamiento de algoritmos basados en gradientes.
- Reduce los problemas derivados de diferencias de escala.
- Mejora la estabilidad numérica de muchos modelos.
- Favorece la convergencia de algoritmos de optimización.
- Es una de las técnicas de escalado más utilizadas en Machine Learning.
¿Cuándo Utilizar Standardization?
- Las variables presentan escalas muy diferentes.
- Se utilizan algoritmos sensibles a la magnitud de las características.
- Los datos tienen una distribución aproximadamente normal.
- Se desea comparar la importancia relativa de diferentes variables.
- Se trabaja con métodos basados en distancia o componentes principales.
Es especialmente útil cuando la distribución de los datos no necesita ser comprimida, sino simplemente escalada.
Ventajas
- Conserva la forma de la distribución original.
- Facilita la comparación entre variables.
- Es adecuada para variables con distribuciones aproximadamente normales.
- Mejora el rendimiento de numerosos algoritmos de Machine Learning.
- No restringe los datos a un rango fijo.
Desventajas
- Es sensible a valores atípicos.
- Los outliers pueden afectar la media y la desviación estándar.
- No corrige distribuciones altamente sesgadas.
- No reduce el impacto de observaciones extremas.
- No garantiza una distribución normal.
- Los valores transformados pueden ser difíciles de interpretar para usuarios de negocio.
Limitaciones
- No elimina outliers.
- No corrige problemas de asimetría.
- No modifica la forma de la distribución.
- Puede verse afectada por valores extremos.
- No siempre es la mejor opción para datos con distribuciones muy sesgadas.
En escenarios con muchos outliers suele ser preferible utilizar técnicas como RobustScaler.
Aplicaciones en Data Science y Machine Learning
La estandarización es especialmente útil en:
- Regresión Lineal.
- Regresión Logística.
- Support Vector Machines (SVM).
- Redes Neuronales.
- PCA (Principal Component Analysis).
- K-Means.
- K-Nearest Neighbors (KNN).
- Análisis de Clustering.
- Métodos basados en gradientes.
En estos algoritmos, la escala de las variables influye directamente sobre el rendimiento y la estabilidad del entrenamiento.
Comparación con Min-Max Scaling
| Característica | Standardization | Min-Max Scaling |
|---|---|---|
| Media centrada en 0 | Sí | No |
| Desviación estándar igual a 1 | Sí | No |
| Rango fijo | No | Sí |
| Sensible a outliers | Sí | Sí |
| Conserva distribución | Sí | Sí |
| Fácil interpretación relativa | Alta | Media |
| Adecuado para PCA | Sí | Sí |
| Adecuado para redes neuronales | Sí | Sí |
Implementación en Python
Aplicación Básica con Scikit-Learn
from sklearn.preprocessing import StandardScaler
import pandas as pd
df = pd.DataFrame({
"edad": [20, 30, 40, 50, 60]
})
scaler = StandardScaler()
df["edad_estandarizada"] = scaler.fit_transform(df[["edad"]])
print(df)
Escalado de varias variables
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Obtener la Media y la Desviación Estándar
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X)
print(scaler.mean_)
print(scaler.scale_)
Uso dentro de un Pipeline
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
pipeline = Pipeline([
("scaler", StandardScaler()),
("model", LogisticRegression())
])
pipeline.fit(X_train, y_train)
Esta es la práctica recomendada para evitar fugas de información (data leakage) entre los conjuntos de entrenamiento y prueba.
Buenas Prácticas
- Ajustar el escalador únicamente con los datos de entrenamiento.
- Aplicar la misma transformación a los datos de validación y prueba.
- Analizar previamente la presencia de outliers.
- Comparar su rendimiento frente a Min-Max Scaling y RobustScaler.
- Integrar la transformación dentro de un Pipeline.
- Evaluar el impacto del escalado sobre el rendimiento del modelo.
Conclusión
La estandarización mediante Z-Score es una de las técnicas de escalado más importantes y utilizadas en Machine Learning. Su objetivo es centrar las variables alrededor de una media de cero y una desviación estándar de uno, permitiendo que todas las características contribuyan de forma equilibrada al entrenamiento de los modelos.
Gracias a su simplicidad, interpretabilidad y compatibilidad con numerosos algoritmos, Standardization se ha convertido en una herramienta fundamental dentro de cualquier proceso moderno de preparación de datos. Aunque no corrige problemas de asimetría ni elimina valores atípicos, constituye una excelente opción cuando se necesita trabajar con variables en escalas comparables y mejorar la estabilidad de los algoritmos de aprendizaje automático.