Contenido

Qué es, cuándo utilizarla y cómo aplicarla en Data Science

La transformación logarítmica es una de las técnicas de preprocesamiento de datos más utilizadas en Ciencia de Datos, Estadística y Machine Learning. Su principal objetivo es modificar la distribución de una variable para facilitar el análisis, mejorar el comportamiento de ciertos algoritmos y reducir el impacto de valores extremos.

Aunque puede parecer un concepto matemático complejo, la realidad es que la transformación logarítmica es una herramienta práctica que ayuda a resolver problemas muy comunes en datasets reales, especialmente cuando trabajamos con variables altamente asimétricas o con rangos de valores extremadamente amplios.

¿Qué es una transformación logarítmica?

Una transformación logarítmica consiste en reemplazar los valores originales de una variable por sus logaritmos. La forma más habitual es:

y=\log(x)

Donde:

$x$ es el valor original.
$y$ es el valor transformado.

El efecto principal es comprimir las diferencias entre valores grandes mientras se conservan las relaciones entre observaciones.

¿Por qué se utiliza?

Muchos fenómenos reales no crecen de forma lineal. Por ejemplo:

Ingresos de personas.
Valor de viviendas.
Número de visitas a una web.
Ventas de productos.
Seguidores en redes sociales.

En estos casos suelen existir muchos valores pequeños y unos pocos valores extremadamente grandes. La diferencia entre ellos puede dominar completamente el análisis. La transformación logarítmica reduce esta desproporción.

Cómo Funciona el Logaritmo

Supongamos que utilizamos logaritmos en base 10:

Valor Original	Log10
10	1
100	2
1.000	3
10.000	4
100.000	5

Observa que:

10 → 100
Multiplicación ×10

100 → 1.000
Multiplicación ×10

10 → 100
Multiplicación ×10

100 → 1.000
Multiplicación ×10

Pero tras aplicar el logaritmo:

1 → 2
Incremento +1

2 → 3
Incremento +1

1 → 2
Incremento +1

2 → 3
Incremento +1

El logaritmo transforma relaciones multiplicativas en relaciones aditivas.

Reducción de la Asimetría

Uno de los usos más importantes de la transformación logarítmica es reducir la asimetría de una distribución. Muchas variables presentan una larga cola hacia la derecha. La transformación suele producir una distribución más equilibrada que facilita tanto el análisis estadístico como el entrenamiento de modelos.

Reducción del Impacto de los Outliers

Otra ventaja importante es la reducción de la influencia de valores extremos.

ventas = [100, 120, 150, 180, 1000]

ventas = [100, 120, 150, 180, 1000]

El valor 10.000 domina completamente la escala. Aplicando logaritmos:

ventas_log = [4.61, 4.79, 5.01, 5.19, 9.21]

ventas_log = [4.61, 4.79, 5.01, 5.19, 9.21]

La diferencia sigue existiendo, pero es mucho menos extrema.

Mejora de la Relación Lineal

Muchos algoritmos funcionan mejor cuando existe una relación aproximadamente lineal entre variables. Como por ejemplo entre publicidad y ventas. A menudo esta relación es exponencial y aplicando logaritmos, la relación puede volverse más lineal y resultar más fácil de modelar.

Cuándo Utilizar una Transformación Logarítmica

La transformación logarítmica suele ser recomendable cuando:

Existe una fuerte asimetría positiva: por ejemplo, en ingresos, ventas, número de usuarios.
Existen valores extremos: cuando unos pocos registros son mucho mayores que el resto.
La variable cubre varios órdenes de magnitud: por ejemplo, [10, 100, 1000, 10000, 10000000]
Se desea estabilizar la varianza: algunos modelos estadísticos asumen una varianza relativamente constante. La transformación logarítmica puede ayudar a cumplir esta condición.

Cuándo NO Utilizarla

No siempre es una buena idea usarla en:

Distribuciones ya equilibradas: Si la variable ya presenta una distribución aproximadamente normal, la transformación puede empeorar los resultados.
Variables categóricas: No tiene sentido aplicar logaritmos a este tipo de variables.
Variables con interpretación directa: En algunos casos la transformación dificulta la interpretación de los resultados.

El Problema del Cero

Los logaritmos presentan una limitación importante, hallar el logaritmo de cero np.log(0) produce un error matemático. Una práctica habitual consiste en utilizar:

$y=\log(x+1)$

Esto permite transformar variables que contienen ceros. Es una de las transformaciones más utilizadas en Machine Learning.

Aplicación en Machine Learning

La transformación logarítmica puede utilizarse durante la fase de preparación de datos para:

Regresión Lineal.
Regresión Ridge.
Regresión Lasso.
Árboles de decisión.
Random Forest.
Gradient Boosting.
Redes neuronales.

Aunque los modelos basados en árboles son menos sensibles a la escala de los datos, la transformación puede seguir siendo útil para mejorar la calidad de la información.

Transformar la Variable Objetivo

En ocasiones no solo se transforman las variables predictoras. También puede transformarse la variable objetivo. El modelo aprende sobre la variable transformada y posteriormente las predicciones pueden volver a la escala original mediante la función exponencial.

Implementación en Python

Utilizando NumPy

import numpy as np

df["ventas_log"] = np.log(df["ventas"])

import numpy as np

df["ventas_log"] = np.log(df["ventas"])

Cuando Existen Ceros

import numpy as np

df["ventas_log"] = np.log1p(df["ventas"])

import numpy as np

df["ventas_log"] = np.log1p(df["ventas"])

Visualización Antes y Después

import matplotlib.pyplot as plt

df["ventas"].hist()

plt.show()

df["ventas_log"].hist()

plt.show()

import matplotlib.pyplot as plt

df["ventas"].hist()

plt.show()

df["ventas_log"].hist()

plt.show()

Esto permite observar cómo cambia la distribución tras la transformación.

Ventajas de la Transformación Logarítmica

Reduce la asimetría de los datos.
Disminuye el impacto de valores extremos.
Facilita el modelado de relaciones no lineales.
Puede mejorar el rendimiento de algunos algoritmos.
Ayuda a estabilizar la varianza.

Limitaciones

No funciona directamente con valores negativos.
Requiere tratamiento especial para los ceros.
Puede dificultar la interpretación de resultados.
No siempre mejora el rendimiento del modelo.