En la mayoría de los proyectos de Data Science, los datos originales rara vez contienen toda la información necesaria para construir modelos predictivos de alto rendimiento. Aunque las variables disponibles pueden describir correctamente un fenómeno, muchas veces es necesario transformarlas o combinarlas para extraer información más útil. Este proceso da lugar a las variables derivadas, una de las técnicas más importantes dentro de la Ingeniería de Características (Feature Engineering).
Las variables derivadas permiten crear nuevas características a partir de una o varias variables existentes con el objetivo de representar mejor el problema que se desea modelar. En muchos casos, estas nuevas variables son más informativas que las originales y pueden mejorar significativamente el rendimiento de un modelo de Machine Learning.
Este artículo introduce el concepto de variables derivadas y presenta los principales tipos de transformaciones que se utilizan en la práctica. En artículos posteriores se profundizará en cada técnica de forma individual.
¿Qué son las variables derivadas?
Una variable derivada es una nueva característica creada mediante operaciones matemáticas, estadísticas, temporales o lógicas sobre una o varias variables existentes.
A diferencia de las variables originales, que provienen directamente de la fuente de datos, las variables derivadas representan información adicional construida para facilitar el aprendizaje de los algoritmos. Por ejemplo, supongamos un conjunto de datos con las siguientes variables:
price = [20.35, 10.15, 13.99]
cuantity = [5, 8, 15]
amount = price * cuantityEn este caso, el importe total es una variable derivada obtenida multiplicando el precio por la cantidad.
¿Por qué son importantes?
Los algoritmos de Machine Learning aprenden a partir de las características disponibles. Si estas no representan adecuadamente el fenómeno estudiado, el modelo tendrá dificultades para identificar patrones útiles. Las variables derivadas permiten incorporar conocimiento del dominio directamente en los datos, facilitando el aprendizaje del modelo.
Por ejemplo:
- La edad suele ser más útil que la fecha de nacimiento.
- El margen de beneficio aporta más información que el precio de venta y el coste por separado.
- La tasa de crecimiento de las ventas puede ser más relevante que el volumen absoluto de ventas.
En muchos proyectos, una única variable derivada puede aportar más capacidad predictiva que varias variables originales.
¿Cómo funcionan las variables derivadas?
El proceso consiste en transformar una o varias variables existentes para generar nuevas características que describan mejor la información disponible.
Generalmente, el flujo de trabajo incluye:
- Analizar las variables originales.
- Identificar relaciones relevantes entre ellas.
- Diseñar nuevas características basadas en conocimiento del dominio.
- Incorporar las nuevas variables al conjunto de datos.
- Evaluar su impacto sobre el modelo.
- Conservar únicamente aquellas que aporten valor predictivo.
Este proceso suele ser iterativo y requiere combinar conocimientos de estadística, programación y comprensión del problema de negocio.
Principales tipos de variables derivadas
Existen numerosas formas de generar variables derivadas. Algunas de las más utilizadas son:
- Ratios.
- Diferencias.
- Porcentajes.
- Márgenes.
- Tasas de crecimiento.
- Índices compuestos.
- Variables temporales.
- Variables agregadas.
- Interacciones entre variables.
- Variables polinomiales.
- Variables binarias derivadas.
- Variables basadas en reglas de negocio.
Cada una de estas técnicas responde a necesidades diferentes y será desarrollada en artículos específicos.
Tipos de operaciones utilizadas
Las variables derivadas pueden construirse mediante diferentes operaciones.
| Operación | Ejemplo |
|---|---|
| Suma | Ventas nacionales + internacionales |
| Resta | Precio − Coste |
| Multiplicación | Precio × Cantidad |
| División | Ventas / Empleados |
| Potencias | Edad² |
| Logaritmos | log(Ingresos) |
| Funciones temporales | Mes, trimestre, día de la semana |
| Condiciones lógicas | Cliente Premium = Sí/No |
La elección de la operación depende del problema que se desea resolver.
Beneficios de las variables derivadas
La creación de variables derivadas ofrece numerosas ventajas.
- Incrementa la capacidad predictiva de los modelos.
- Facilita la detección de patrones complejos.
- Reduce la necesidad de algoritmos más sofisticados.
- Incorpora conocimiento del negocio.
- Mejora la interpretabilidad de los resultados.
- Permite resumir información relevante.
- Enriquece la representación de los datos.
En muchos casos, las variables derivadas tienen un mayor poder explicativo que las variables originales.
¿Cuándo utilizar variables derivadas?
Su utilización es recomendable cuando:
- Los datos originales son poco informativos.
- Existen relaciones conocidas entre variables.
- Se desea incorporar conocimiento del dominio.
- El modelo presenta bajo rendimiento.
- Se trabaja con variables temporales.
- Se requieren indicadores sintéticos.
- Se busca mejorar la interpretación de los resultados.
Las variables derivadas forman parte habitual de cualquier proceso de Ingeniería de Características.
Ventajas y desventajas
| Ventajas | Desventajas |
|---|---|
| Mejoran la representación de los datos | Requieren conocimiento del dominio |
| Incrementan el rendimiento predictivo | Pueden aumentar la dimensionalidad |
| Facilitan el aprendizaje del modelo | Algunas variables pueden ser redundantes |
| Permiten capturar relaciones complejas | Existe riesgo de sobreajuste |
| Mejoran la interpretabilidad | Requieren validación continua |
Limitaciones
Aunque son una herramienta muy potente, presentan ciertas limitaciones.
- No todas las variables derivadas aportan información útil.
- Un número excesivo de características puede dificultar el entrenamiento.
- Algunas transformaciones pueden introducir ruido.
- Es posible generar variables altamente correlacionadas.
- Requieren evaluar continuamente su impacto sobre el modelo.
- Un diseño inadecuado puede provocar fuga de información (Data Leakage).
Por ello, la creación de variables derivadas debe ir acompañada de un proceso de validación y selección de características.
Variables derivadas vs variables originales
| Variables originales | Variables derivadas |
|---|---|
| Proceden directamente de la fuente de datos | Se generan a partir de otras variables |
| Representan información básica | Representan información enriquecida |
| No requieren transformación | Requieren operaciones matemáticas o lógicas |
| Suelen ser más generales | Suelen estar orientadas al problema |
| Constituyen el punto de partida | Amplían la capacidad descriptiva del conjunto de datos |
Las variables derivadas complementan, pero no sustituyen, a las variables originales.
Variables derivadas y Machine Learning
El impacto de las variables derivadas depende del algoritmo utilizado.
| Algoritmo | Beneficio Potencial |
|---|---|
| Regresión Lineal | Muy alto |
| Regresión Logística | Muy alto |
| SVM | Alto |
| K-Nearest Neighbors (KNN) | Alto |
| Árboles de Decisión | Moderado |
| Random Forest | Moderado |
| XGBoost | Moderado |
| LightGBM | Moderado |
| Redes Neuronales | Variable |
Los modelos lineales suelen beneficiarse especialmente de una buena ingeniería de variables derivadas, ya que estas permiten capturar relaciones que el algoritmo no puede aprender por sí solo.
Buenas prácticas
Para crear variables derivadas de forma efectiva se recomienda:
- Comprender el problema de negocio antes de diseñar nuevas variables.
- Priorizar características con significado práctico.
- Evitar generar variables redundantes.
- Validar el impacto de cada característica mediante experimentación.
- Controlar la multicolinealidad entre variables.
- Automatizar el proceso mediante pipelines cuando sea posible.
- Documentar todas las transformaciones realizadas.
- Evitar el Data Leakage utilizando únicamente información disponible en el momento de la predicción.
Conclusión
Las variables derivadas constituyen uno de los pilares fundamentales de la Ingeniería de Características. Su objetivo es transformar la información disponible en representaciones más útiles para los algoritmos de Machine Learning, permitiendo capturar relaciones, patrones y comportamientos que las variables originales no reflejan de forma explícita.
A través de operaciones matemáticas, estadísticas, temporales o lógicas, es posible generar características con un mayor poder explicativo y mejorar significativamente el rendimiento de los modelos predictivos. Sin embargo, su creación debe realizarse de forma planificada, apoyándose en el conocimiento del dominio y validando continuamente su contribución. En los siguientes artículos se abordarán en detalle las principales categorías de variables derivadas, como los ratios, las tasas de crecimiento, los márgenes y los índices compuestos, proporcionando una visión práctica de cómo utilizarlas para construir modelos más precisos y robustos.