Introducción a las Variables Derivadas

Escrito por

en

En la mayoría de los proyectos de Data Science, los datos originales rara vez contienen toda la información necesaria para construir modelos predictivos de alto rendimiento. Aunque las variables disponibles pueden describir correctamente un fenómeno, muchas veces es necesario transformarlas o combinarlas para extraer información más útil. Este proceso da lugar a las variables derivadas, una de las técnicas más importantes dentro de la Ingeniería de Características (Feature Engineering).

Las variables derivadas permiten crear nuevas características a partir de una o varias variables existentes con el objetivo de representar mejor el problema que se desea modelar. En muchos casos, estas nuevas variables son más informativas que las originales y pueden mejorar significativamente el rendimiento de un modelo de Machine Learning.

Este artículo introduce el concepto de variables derivadas y presenta los principales tipos de transformaciones que se utilizan en la práctica. En artículos posteriores se profundizará en cada técnica de forma individual.

¿Qué son las variables derivadas?

Una variable derivada es una nueva característica creada mediante operaciones matemáticas, estadísticas, temporales o lógicas sobre una o varias variables existentes.

A diferencia de las variables originales, que provienen directamente de la fuente de datos, las variables derivadas representan información adicional construida para facilitar el aprendizaje de los algoritmos. Por ejemplo, supongamos un conjunto de datos con las siguientes variables:

price = [20.35, 10.15, 13.99]
cuantity = [5, 8, 15]
amount = price * cuantity

En este caso, el importe total es una variable derivada obtenida multiplicando el precio por la cantidad.

¿Por qué son importantes?

Los algoritmos de Machine Learning aprenden a partir de las características disponibles. Si estas no representan adecuadamente el fenómeno estudiado, el modelo tendrá dificultades para identificar patrones útiles. Las variables derivadas permiten incorporar conocimiento del dominio directamente en los datos, facilitando el aprendizaje del modelo.

Por ejemplo:

  • La edad suele ser más útil que la fecha de nacimiento.
  • El margen de beneficio aporta más información que el precio de venta y el coste por separado.
  • La tasa de crecimiento de las ventas puede ser más relevante que el volumen absoluto de ventas.

En muchos proyectos, una única variable derivada puede aportar más capacidad predictiva que varias variables originales.

¿Cómo funcionan las variables derivadas?

El proceso consiste en transformar una o varias variables existentes para generar nuevas características que describan mejor la información disponible.

Generalmente, el flujo de trabajo incluye:

  1. Analizar las variables originales.
  2. Identificar relaciones relevantes entre ellas.
  3. Diseñar nuevas características basadas en conocimiento del dominio.
  4. Incorporar las nuevas variables al conjunto de datos.
  5. Evaluar su impacto sobre el modelo.
  6. Conservar únicamente aquellas que aporten valor predictivo.

Este proceso suele ser iterativo y requiere combinar conocimientos de estadística, programación y comprensión del problema de negocio.

Principales tipos de variables derivadas

Existen numerosas formas de generar variables derivadas. Algunas de las más utilizadas son:

  • Ratios.
  • Diferencias.
  • Porcentajes.
  • Márgenes.
  • Tasas de crecimiento.
  • Índices compuestos.
  • Variables temporales.
  • Variables agregadas.
  • Interacciones entre variables.
  • Variables polinomiales.
  • Variables binarias derivadas.
  • Variables basadas en reglas de negocio.

Cada una de estas técnicas responde a necesidades diferentes y será desarrollada en artículos específicos.

Tipos de operaciones utilizadas

Las variables derivadas pueden construirse mediante diferentes operaciones.

OperaciónEjemplo
SumaVentas nacionales + internacionales
RestaPrecio − Coste
MultiplicaciónPrecio × Cantidad
DivisiónVentas / Empleados
PotenciasEdad²
Logaritmoslog(Ingresos)
Funciones temporalesMes, trimestre, día de la semana
Condiciones lógicasCliente Premium = Sí/No

La elección de la operación depende del problema que se desea resolver.

Beneficios de las variables derivadas

La creación de variables derivadas ofrece numerosas ventajas.

  • Incrementa la capacidad predictiva de los modelos.
  • Facilita la detección de patrones complejos.
  • Reduce la necesidad de algoritmos más sofisticados.
  • Incorpora conocimiento del negocio.
  • Mejora la interpretabilidad de los resultados.
  • Permite resumir información relevante.
  • Enriquece la representación de los datos.

En muchos casos, las variables derivadas tienen un mayor poder explicativo que las variables originales.

¿Cuándo utilizar variables derivadas?

Su utilización es recomendable cuando:

  • Los datos originales son poco informativos.
  • Existen relaciones conocidas entre variables.
  • Se desea incorporar conocimiento del dominio.
  • El modelo presenta bajo rendimiento.
  • Se trabaja con variables temporales.
  • Se requieren indicadores sintéticos.
  • Se busca mejorar la interpretación de los resultados.

Las variables derivadas forman parte habitual de cualquier proceso de Ingeniería de Características.

Ventajas y desventajas

VentajasDesventajas
Mejoran la representación de los datosRequieren conocimiento del dominio
Incrementan el rendimiento predictivoPueden aumentar la dimensionalidad
Facilitan el aprendizaje del modeloAlgunas variables pueden ser redundantes
Permiten capturar relaciones complejasExiste riesgo de sobreajuste
Mejoran la interpretabilidadRequieren validación continua

Limitaciones

Aunque son una herramienta muy potente, presentan ciertas limitaciones.

  • No todas las variables derivadas aportan información útil.
  • Un número excesivo de características puede dificultar el entrenamiento.
  • Algunas transformaciones pueden introducir ruido.
  • Es posible generar variables altamente correlacionadas.
  • Requieren evaluar continuamente su impacto sobre el modelo.
  • Un diseño inadecuado puede provocar fuga de información (Data Leakage).

Por ello, la creación de variables derivadas debe ir acompañada de un proceso de validación y selección de características.

Variables derivadas vs variables originales

Variables originalesVariables derivadas
Proceden directamente de la fuente de datosSe generan a partir de otras variables
Representan información básicaRepresentan información enriquecida
No requieren transformaciónRequieren operaciones matemáticas o lógicas
Suelen ser más generalesSuelen estar orientadas al problema
Constituyen el punto de partidaAmplían la capacidad descriptiva del conjunto de datos

Las variables derivadas complementan, pero no sustituyen, a las variables originales.

Variables derivadas y Machine Learning

El impacto de las variables derivadas depende del algoritmo utilizado.

AlgoritmoBeneficio Potencial
Regresión LinealMuy alto
Regresión LogísticaMuy alto
SVMAlto
K-Nearest Neighbors (KNN)Alto
Árboles de DecisiónModerado
Random ForestModerado
XGBoostModerado
LightGBMModerado
Redes NeuronalesVariable

Los modelos lineales suelen beneficiarse especialmente de una buena ingeniería de variables derivadas, ya que estas permiten capturar relaciones que el algoritmo no puede aprender por sí solo.

Buenas prácticas

Para crear variables derivadas de forma efectiva se recomienda:

  • Comprender el problema de negocio antes de diseñar nuevas variables.
  • Priorizar características con significado práctico.
  • Evitar generar variables redundantes.
  • Validar el impacto de cada característica mediante experimentación.
  • Controlar la multicolinealidad entre variables.
  • Automatizar el proceso mediante pipelines cuando sea posible.
  • Documentar todas las transformaciones realizadas.
  • Evitar el Data Leakage utilizando únicamente información disponible en el momento de la predicción.

Conclusión

Las variables derivadas constituyen uno de los pilares fundamentales de la Ingeniería de Características. Su objetivo es transformar la información disponible en representaciones más útiles para los algoritmos de Machine Learning, permitiendo capturar relaciones, patrones y comportamientos que las variables originales no reflejan de forma explícita.

A través de operaciones matemáticas, estadísticas, temporales o lógicas, es posible generar características con un mayor poder explicativo y mejorar significativamente el rendimiento de los modelos predictivos. Sin embargo, su creación debe realizarse de forma planificada, apoyándose en el conocimiento del dominio y validando continuamente su contribución. En los siguientes artículos se abordarán en detalle las principales categorías de variables derivadas, como los ratios, las tasas de crecimiento, los márgenes y los índices compuestos, proporcionando una visión práctica de cómo utilizarlas para construir modelos más precisos y robustos.