Introducción a la Transformación de datos

En Data Science, Estadística y Machine Learning, las transformaciones de variables suelen agruparse según el objetivo que persiguen. Aunque existen varias clasificaciones, la más utilizada las divide en los siguientes grupos:

1. Transformaciones de Potencia (Power Transformations)

Su objetivo principal es reducir la asimetría, estabilizar la varianza y aproximar la distribución a una normal para corregir datos sesgados. Las transformaciones son:

Cuándo usarlas

  • Distribuciones sesgadas.
  • Variables con colas largas.
  • Problemas de heterocedasticidad.
  • Regresión lineal.

2. Transformaciones de Escalado (Feature Scaling)

Su objetivo es llevar las variables a una escala comparable. Utilizando la mediana y el rango intercuartílico (IQR)

Cuándo usarlas

  • K-Means
  • KNN
  • PCA
  • Redes Neuronales
  • SVM

3. Transformaciones de Normalización

Buscan modificar la forma de la distribución para acercarla a una distribución normal.

Cuándo usarlas

  • Regresión lineal
  • Modelos estadísticos clásicos
  • Análisis de hipótesis
  • PCA

4. Transformaciones Basadas en Rangos (Rank Transformations)

Reemplazan los valores originales por su posición ordenada.

Beneficios

  • Muy robustas ante outliers.
  • Reducen el efecto de distribuciones extremas.

5. Transformaciones Trigonométricas o Cíclicas

Se utilizan para variables periódicas. Como hora, día de la semana, mes del año, etc.

Aplicaciones

  • Series temporales.
  • Forecasting.
  • Redes neuronales.

6. Transformaciones de Discretización (Binning)

Convierten variables continuas en categorías.

  • Equal Width
  • Equal Frequency: cada grupo contiene aproximadamente el mismo número de observaciones.

Ejemplo

EdadCategoría
22Joven
45Adulto
70Senior

Aplicaciones

  • Scorecards.
  • Modelos de riesgo.
  • Interpretabilidad.

7. Transformaciones para Variables Categóricas

Transforman texto o categorías en valores numéricos.

  • One-Hot Encoding
  • Label Encoding
  • Target Encoding

Utiliza la variable objetivo para generar la codificación.

8. Transformaciones de Reducción de Dimensionalidad

Transforman múltiples variables en un número menor de componentes.

  • Principal Component Analysis (PCA)
  • Linear Discriminant Analysis
  • Independent Component Analysis
  • t-SNE
  • UMAP

Objetivos

  • Reducir ruido.
  • Mejorar velocidad.
  • Visualización.

9. Transformaciones de Ingeniería de Características

Crean nuevas variables a partir de las existentes.

  • Polinomiales
  • Interacciones
  • Ratios
  • Ventas / Clientes
  • Coste / Ingreso

Aplicaciones

  • Regresión.
  • Machine Learning.
  • Deep Learning.

Clasificación práctica más utilizada en Machine Learning

Cuando estudias preprocesamiento de datos, normalmente las transformaciones se agrupan en cuatro grandes familias:

Transformaciones de Distribución

Modifican la forma de la distribución.

  • Log
  • Raíz cuadrada
  • Raíz cúbica
  • Recíproca
  • Box-Cox
  • Yeo-Johnson

Escalado

Modifican la magnitud de los valores.

  • Min-Max
  • StandardScaler
  • RobustScaler
  • MaxAbsScaler

Codificación

Transforman variables categóricas.

  • One-Hot Encoding
  • Label Encoding
  • Target Encoding

Ingeniería de Características

Crean nuevas variables.

  • Polinomiales
  • Interacciones
  • Variables temporales
  • Variables agregadas

Esta última clasificación es la más utilizada en bibliotecas como Scikit-learn y en los pipelines modernos de Machine Learning.