En numerosos problemas de Data Science, las variables originales no siempre representan adecuadamente la información necesaria para construir modelos predictivos precisos. En muchas ocasiones, la relación entre dos variables aporta mucho más valor que sus valores individuales. Una de las formas más habituales de capturar estas relaciones consiste en crear ratios, una de las técnicas más utilizadas dentro de la Ingeniería de Características (Feature Engineering).
Los ratios permiten expresar la proporción entre dos variables y describir comportamientos relativos en lugar de valores absolutos. Esta característica los convierte en una herramienta especialmente útil en ámbitos como las finanzas, el marketing, la salud, la industria, el comercio electrónico y la analítica empresarial.
¿Qué son los ratios?
Un ratio es una variable derivada obtenida mediante la división de una variable entre otra para expresar una relación proporcional entre ambas. Su objetivo es proporcionar una medida relativa que permita comparar observaciones independientemente de su tamaño o magnitud. Matemáticamente, un ratio se expresa como:
$$\text{Ratio}=\frac{\text{Variable A}}{\text{Variable B}}$$

¿Por qué son importantes?
Los valores absolutos pueden resultar engañosos cuando se comparan entidades de distinto tamaño.
Por ejemplo:
| Empresa | Ventas |
|---|---|
| A | 1.000.000 € |
| B | 500.000 € |
A primera vista parece que la empresa A obtiene mejores resultados.
Sin embargo:
| Empresa | Ventas | Empleados | Ventas por Empleado |
|---|---|---|---|
| A | 1.000.000 € | 100 | 10.000 € |
| B | 500.000 € | 20 | 25.000 € |
Ahora observamos que la empresa B es considerablemente más eficiente. Los ratios eliminan el efecto del tamaño y facilitan comparaciones más justas.
¿Cómo funcionan los ratios?
Los ratios se construyen dividiendo dos variables relacionadas entre sí. El proceso habitual consiste en:
- Identificar dos variables con relación lógica.
- Definir cuál será el numerador y cuál el denominador.
- Calcular el cociente entre ambas.
- Incorporar el nuevo ratio al conjunto de datos.
- Evaluar si mejora el rendimiento del modelo.
Es importante que exista una relación conceptual entre ambas variables para que el ratio tenga significado.
Tipos de ratios
- Ratios de productividad: miden el rendimiento respecto a un recurso utilizado.
- Ratios financieros: relacionan magnitudes económicas.
- Ratios comerciales: relacionan indicadores de ventas y marketing.
- Ratios demográficos: relacionan poblaciones o grupos.
- Ratios temporales: relacionan una magnitud con el tiempo.
Beneficios de utilizar ratios
La creación de ratios aporta numerosas ventajas.
- Normaliza variables de distinta escala.
- Facilita comparaciones entre entidades.
- Reduce el efecto del tamaño absoluto.
- Incrementa el poder predictivo de algunos modelos.
- Resume información compleja en una única variable.
- Facilita la interpretación de resultados.
- Incorpora conocimiento del negocio.
En muchos casos, un ratio resulta más informativo que las variables originales por separado.
¿Cuándo utilizar ratios?
Su utilización es recomendable cuando:
- Existen variables relacionadas entre sí.
- Se desea eliminar el efecto del tamaño.
- Se comparan entidades de distinta dimensión.
- Se trabaja con indicadores de rendimiento.
- Se buscan medidas relativas.
- Se pretende mejorar la capacidad predictiva del modelo.
Los ratios son especialmente útiles cuando las variables representan cantidades acumuladas o totales.
Ventajas y desventajas
| Ventajas | Desventajas |
|---|---|
| Eliminan el efecto del tamaño | Pueden ser inestables cuando el denominador es pequeño |
| Mejoran la comparabilidad | Requieren una relación lógica entre variables |
| Incrementan la interpretabilidad | Pueden generar valores extremos |
| Suelen mejorar modelos lineales | No siempre aportan información adicional |
| Fácil implementación | Es necesario controlar divisiones por cero |
Limitaciones
Aunque los ratios son muy útiles, presentan ciertas limitaciones.
- El denominador puede tomar valores cercanos a cero.
- Pueden producir valores extremadamente grandes.
- Algunas relaciones carecen de significado práctico.
- Es posible introducir ruido si las variables no están relacionadas.
- Algunos ratios pueden estar altamente correlacionados.
- En ocasiones requieren transformaciones adicionales para reducir la asimetría.
Por ello, es recomendable analizar su distribución antes de utilizarlos en un modelo.
Ratios vs valores absolutos
| Valores absolutos | Ratios |
|---|---|
| Representan cantidades totales | Representan relaciones entre cantidades |
| Dependen del tamaño | Son independientes de la escala |
| Dificultan comparaciones | Facilitan comparaciones |
| Suelen presentar mayor variabilidad | Normalizan parte de la variabilidad |
| Pueden ocultar eficiencia | Reflejan productividad o rendimiento |
Los ratios complementan a los valores absolutos y, en muchos casos, aportan una visión más útil del fenómeno analizado.
Ratios y Machine Learning
El impacto de los ratios depende del algoritmo utilizado.
| Algoritmo | Beneficio Potencial |
|---|---|
| Regresión Lineal | Muy alto |
| Regresión Logística | Muy alto |
| K-Nearest Neighbors (KNN) | Alto |
| Support Vector Machine (SVM) | Alto |
| Árboles de Decisión | Moderado |
| Random Forest | Moderado |
| XGBoost | Moderado |
| LightGBM | Moderado |
| Redes Neuronales | Variable |
Los modelos lineales suelen beneficiarse especialmente de los ratios, ya que estos permiten representar relaciones que el algoritmo no puede aprender automáticamente.
Aplicaciones en Data Science y Machine Learning
Los ratios aparecen en prácticamente todos los sectores.
Algunas aplicaciones incluyen:
- Scoring crediticio.
- Detección de fraude.
- Marketing digital.
- Analítica web.
- Predicción de ventas.
- Comercio electrónico.
- Recursos humanos.
- Diagnóstico médico.
- Predicción energética.
- Analítica financiera.
- Industria manufacturera.
- Turismo y hotelería.
En todos estos ámbitos, los ratios ayudan a describir el comportamiento relativo de las observaciones y suelen incrementar la capacidad predictiva de los modelos.
Implementación en Python
Crear un ratio simple
import pandas as pd
df = pd.DataFrame({
'ventas': [500000, 750000, 600000],
'empleados': [10, 15, 12]
})
df['ventas_por_empleado'] = (
df['ventas'] / df['empleados']
)
print(df)
ventas empleados ventas_por_empleado
0 500000 10 50000.0
1 750000 15 50000.0
2 600000 12 50000.0
Evitar divisiones por cero
import numpy as np
import pandas as pd
df = pd.DataFrame({
'ventas': [500000, 750000, 600000],
'empleados': [10, 0, 12]
})
df['ventas_por_empleado'] = np.where(
df['empleados'] != 0,
df['ventas'] / df['empleados'],
np.nan
)
print(df)
Crear varios ratios simultáneamente
df = pd.DataFrame({
'ventas': [200000, 350000],
'beneficio': [40000, 70000],
'clientes': [5000, 7000]
})
df['beneficio_por_cliente'] = (
df['beneficio'] / df['clientes']
)
df['ventas_por_cliente'] = (
df['ventas'] / df['clientes']
)
df['margen'] = (
df['beneficio'] / df['ventas']
)
print(df)
Aplicar una transformación logarítmica
Cuando los ratios presentan distribuciones muy asimétricas, puede ser útil aplicar una transformación logarítmica.
import numpy as np
df['log_ventas_por_empleado'] = np.log1p(
df['ventas_por_empleado']
)
La función log1p() calcula:
$$\log(1+x)$$
y es adecuada para variables con valores iguales o cercanos a cero.
Buenas prácticas
Para utilizar ratios de forma efectiva se recomienda:
- Crear únicamente ratios con significado de negocio.
- Analizar la distribución de los valores generados.
- Evitar divisiones por cero.
- Revisar la presencia de valores extremos.
- Comprobar la correlación con otras variables.
- Validar su impacto mediante validación cruzada.
- Documentar la fórmula utilizada para cada ratio.
- Considerar transformaciones adicionales cuando exista una fuerte asimetría.
Conclusión
Los ratios constituyen una de las técnicas más utilizadas dentro de la Ingeniería de Características debido a su capacidad para representar relaciones proporcionales entre variables. Al expresar medidas relativas en lugar de valores absolutos, permiten comparar observaciones de distinta escala, capturar indicadores de eficiencia y enriquecer la información disponible para los modelos de Machine Learning.
Su aplicación es especialmente relevante en ámbitos como las finanzas, el marketing, la salud o la analítica empresarial, donde los indicadores relativos suelen ser más representativos que las magnitudes absolutas. No obstante, su construcción debe realizarse con criterio, asegurando que exista una relación lógica entre las variables utilizadas y controlando aspectos como las divisiones por cero o la presencia de valores extremos. Cuando se diseñan adecuadamente, los ratios pueden convertirse en algunas de las características más valiosas de un conjunto de datos y contribuir de forma significativa a mejorar el rendimiento y la interpretabilidad de los modelos predictivos.