Introducción a la Transformación de datos

Contenido

En Data Science, Estadística y Machine Learning, las transformaciones de variables suelen agruparse según el objetivo que persiguen. Aunque existen varias clasificaciones, la más utilizada las divide en los siguientes grupos:

1. Transformaciones de Potencia (Power Transformations)

Su objetivo principal es reducir la asimetría, estabilizar la varianza y aproximar la distribución a una normal para corregir datos sesgados. Las transformaciones son:

Cuándo usarlas

Distribuciones sesgadas.
Variables con colas largas.
Problemas de heterocedasticidad.
Regresión lineal.

2. Transformaciones de Escalado (Feature Scaling)

Su objetivo es llevar las variables a una escala comparable. Utilizando la mediana y el rango intercuartílico (IQR)

Cuándo usarlas

K-Means
KNN
PCA
Redes Neuronales
SVM

3. Transformaciones de Normalización

Buscan modificar la forma de la distribución para acercarla a una distribución normal.

Cuándo usarlas

Regresión lineal
Modelos estadísticos clásicos
Análisis de hipótesis
PCA

4. Transformaciones Basadas en Rangos (Rank Transformations)

Reemplazan los valores originales por su posición ordenada.

Ranking simple
Percentiles
Quantile Transformation

Beneficios

Muy robustas ante outliers.
Reducen el efecto de distribuciones extremas.

5. Transformaciones Trigonométricas o Cíclicas

Se utilizan para variables periódicas. Como hora, día de la semana, mes del año, etc.

Transformación seno – coseno

Aplicaciones

Series temporales.
Forecasting.
Redes neuronales.

6. Transformaciones de Discretización (Binning)

Convierten variables continuas en categorías.

Equal Width
Equal Frequency: cada grupo contiene aproximadamente el mismo número de observaciones.

Ejemplo

Edad	Categoría
22	Joven
45	Adulto
70	Senior

Aplicaciones

Scorecards.
Modelos de riesgo.
Interpretabilidad.

7. Transformaciones para Variables Categóricas

Transforman texto o categorías en valores numéricos.

One-Hot Encoding
Label Encoding
Target Encoding

Utiliza la variable objetivo para generar la codificación.

8. Transformaciones de Reducción de Dimensionalidad

Transforman múltiples variables en un número menor de componentes.

Principal Component Analysis (PCA)
Linear Discriminant Analysis
Independent Component Analysis
t-SNE
UMAP

Objetivos

Reducir ruido.
Mejorar velocidad.
Visualización.

9. Transformaciones de Ingeniería de Características

Crean nuevas variables a partir de las existentes.

Polinomiales
Interacciones
Ratios
Ventas / Clientes
Coste / Ingreso

Aplicaciones

Regresión.
Machine Learning.
Deep Learning.

Clasificación práctica más utilizada en Machine Learning

Cuando estudias preprocesamiento de datos, normalmente las transformaciones se agrupan en cuatro grandes familias:

Transformaciones de Distribución

Modifican la forma de la distribución.

Log
Raíz cuadrada
Raíz cúbica
Recíproca
Box-Cox
Yeo-Johnson

Escalado

Modifican la magnitud de los valores.

Min-Max
StandardScaler
RobustScaler
MaxAbsScaler

Codificación

Transforman variables categóricas.

One-Hot Encoding
Label Encoding
Target Encoding

Ingeniería de Características

Crean nuevas variables.

Polinomiales
Interacciones
Variables temporales
Variables agregadas

Esta última clasificación es la más utilizada en bibliotecas como Scikit-learn y en los pipelines modernos de Machine Learning.