En Data Science, Estadística y Machine Learning, las transformaciones de variables suelen agruparse según el objetivo que persiguen. Aunque existen varias clasificaciones, la más utilizada las divide en los siguientes grupos:
1. Transformaciones de Potencia (Power Transformations)
Su objetivo principal es reducir la asimetría, estabilizar la varianza y aproximar la distribución a una normal para corregir datos sesgados. Las transformaciones son:
- Transformación Logarítmica
- Transformación de Raíz Cuadrada
- Transformación de Raíz Cúbica
- Transformación Recíproca
- Transformación Box-Cox
- Transformación Yeo-Johnson
Cuándo usarlas
- Distribuciones sesgadas.
- Variables con colas largas.
- Problemas de heterocedasticidad.
- Regresión lineal.
2. Transformaciones de Escalado (Feature Scaling)
Su objetivo es llevar las variables a una escala comparable. Utilizando la mediana y el rango intercuartílico (IQR)
Cuándo usarlas
- K-Means
- KNN
- PCA
- Redes Neuronales
- SVM
3. Transformaciones de Normalización
Buscan modificar la forma de la distribución para acercarla a una distribución normal.
- Box-Cox
- Yeo-Johnson
- Quantile Transformation
- Rank Gaussian Transformation
Cuándo usarlas
- Regresión lineal
- Modelos estadísticos clásicos
- Análisis de hipótesis
- PCA
4. Transformaciones Basadas en Rangos (Rank Transformations)
Reemplazan los valores originales por su posición ordenada.
- Ranking simple
- Percentiles
- Quantile Transformation
Beneficios
- Muy robustas ante outliers.
- Reducen el efecto de distribuciones extremas.
5. Transformaciones Trigonométricas o Cíclicas
Se utilizan para variables periódicas. Como hora, día de la semana, mes del año, etc.
Aplicaciones
- Series temporales.
- Forecasting.
- Redes neuronales.
6. Transformaciones de Discretización (Binning)
Convierten variables continuas en categorías.
- Equal Width
- Equal Frequency: cada grupo contiene aproximadamente el mismo número de observaciones.
Ejemplo
| Edad | Categoría |
|---|---|
| 22 | Joven |
| 45 | Adulto |
| 70 | Senior |
Aplicaciones
- Scorecards.
- Modelos de riesgo.
- Interpretabilidad.
7. Transformaciones para Variables Categóricas
Transforman texto o categorías en valores numéricos.
- One-Hot Encoding
- Label Encoding
- Target Encoding
Utiliza la variable objetivo para generar la codificación.
8. Transformaciones de Reducción de Dimensionalidad
Transforman múltiples variables en un número menor de componentes.
- Principal Component Analysis (PCA)
- Linear Discriminant Analysis
- Independent Component Analysis
- t-SNE
- UMAP
Objetivos
- Reducir ruido.
- Mejorar velocidad.
- Visualización.
9. Transformaciones de Ingeniería de Características
Crean nuevas variables a partir de las existentes.
- Polinomiales
- Interacciones
- Ratios
- Ventas / Clientes
- Coste / Ingreso
Aplicaciones
- Regresión.
- Machine Learning.
- Deep Learning.
Clasificación práctica más utilizada en Machine Learning
Cuando estudias preprocesamiento de datos, normalmente las transformaciones se agrupan en cuatro grandes familias:
Transformaciones de Distribución
Modifican la forma de la distribución.
- Log
- Raíz cuadrada
- Raíz cúbica
- Recíproca
- Box-Cox
- Yeo-Johnson
Escalado
Modifican la magnitud de los valores.
- Min-Max
- StandardScaler
- RobustScaler
- MaxAbsScaler
Codificación
Transforman variables categóricas.
- One-Hot Encoding
- Label Encoding
- Target Encoding
Ingeniería de Características
Crean nuevas variables.
- Polinomiales
- Interacciones
- Variables temporales
- Variables agregadas
Esta última clasificación es la más utilizada en bibliotecas como Scikit-learn y en los pipelines modernos de Machine Learning.