Transformación de Raíz Cuadrada

La transformación de raíz cuadrada es una técnica de preprocesamiento utilizada para modificar la distribución de una variable numérica con el objetivo de reducir la asimetría, disminuir el impacto de los valores extremos y facilitar el análisis estadístico. Aunque suele recibir menos atención que la transformación logarítmica, constituye una alternativa muy útil cuando la asimetría es moderada o cuando los datos contienen valores iguales a cero.

Dentro del proceso de preparación de datos, esta técnica forma parte de las transformaciones destinadas a corregir distribuciones sesgadas antes de aplicar algoritmos de Machine Learning o realizar análisis estadísticos.

¿Qué es una transformación de raíz cuadrada?

La transformación consiste en sustituir cada valor de una variable por su raíz cuadrada. La fórmula es:

$$Y=\sqr{X}$$

Donde:

  • \( X \) es el valor original.
  • \( Y \) es el valor transformado.

Esta operación reduce progresivamente las diferencias entre los valores más grandes sin alterar el orden de los datos.

¿Por qué utilizar una transformación de raíz cuadrada?

Muchos conjuntos de datos presentan distribuciones asimétricas hacia la derecha. Por ejemplo:

ventas = [1, 2, 3, 5, 25]

El valor 25 se encuentra muy alejado del resto y puede influir excesivamente en algunos análisis. Aplicando la raíz cuadrada obtenemos:

ventas_sqr = [1.00, 1.41, 1.73, 2.24, 5.00]

Observamos que la diferencia entre los valores sigue existiendo, pero es considerablemente menor.

Diferencia Entre Raíz Cuadrada y Logaritmo

Ambas transformaciones buscan reducir la asimetría, pero lo hacen con distinta intensidad.

  • Transformación Logarítmica: es más agresiva, reduce fuertemente los valores grandes y es adecuada para asimetrías elevadas.
  • Transformación de Raíz Cuadrada: es menos agresiva, mantiene mejor las diferencias originales y es adecuada para asimetrías moderadas.

¿Cuándo Utilizarla?

La transformación de raíz cuadrada suele ser una buena elección cuando existe una asimetría positiva moderada. Una ventaja importante frente al logaritmo es que puede aplicarse directamente sobre variables que contienen valores iguales a cero.

En cambio, no queremos una transformación demasiado agresiva, si el logaritmo altera excesivamente la distribución, la raíz cuadrada puede ofrecer un equilibrio mejor.

Ventajas de la Transformación de Raíz Cuadrada

  • Reduce la asimetría: ayuda a equilibrar distribuciones con sesgo positivo.
  • Admite valores cero: no requiere transformaciones adicionales como ocurre con el logaritmo.
  • Menor impacto sobre la interpretación: los datos transformados conservan mejor la relación con la escala original.
  • Reduce parcialmente los outliers: los valores extremos siguen existiendo, pero su influencia disminuye.

Limitaciones

  • No funciona con valores negativos: la raíz cuadrada real no está definida para números negativos. No puede calcularse dentro de los números reales.
  • Menos efectiva para asimetrías extremas: Cuando la distribución está muy sesgada, transformaciones como la logarítmica,
  • Box-Cox o Yeo-Johnson suelen ofrecer mejores resultados.
  • No garantiza una distribución normal: aunque reduce la asimetría, no siempre produce una distribución perfectamente normal.

Comparación de Transformaciones para Datos Sesgados

TransformaciónIntensidadAdmite CerosAdmite Negativos
LogarítmicaAltaNoNo
Raíz CuadradaMediaNo
Raíz CúbicaBaja
Box-CoxAltaNoNo
Yeo-JohnsonAlta

Implementación en Python

Utilizando NumPy

import numpy as np

df["ventas_sqrt"] = np.sqrt(df["ventas"])

Aplicando a una Serie

import pandas as pd
import numpy as np

ventas = pd.Series([1, 4, 9, 16, 25])

ventas_sqrt = np.sqrt(ventas)

print(ventas_sqrt)
0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

Comparando Distribuciones

import matplotlib.pyplot as plt
import numpy as np

df["ventas"].hist()

plt.title("Distribución Original")
plt.show()

np.sqrt(df["ventas"]).hist()

plt.title("Distribución Transformada")
plt.show()

Esta visualización permite comprobar si la transformación ha reducido efectivamente la asimetría.

Relación con Machine Learning

La transformación de raíz cuadrada suele aplicarse durante la fase de Transformación de Datos antes del entrenamiento de modelos. Puede resultar útil en algoritmos sensibles a la distribución de los datos, como:

  • Regresión Lineal.
  • Regresión Ridge.
  • Regresión Lasso.
  • Support Vector Machines.
  • Redes Neuronales.

Su objetivo no es mejorar directamente la precisión del modelo, sino proporcionar una representación de los datos más adecuada para el aprendizaje.