Transformar un problema de negocio en un problema de Ciencia de Datos
Una vez comprendido el problema del mundo real durante la fase de Business Understanding, el siguiente paso consiste en determinar cómo puede resolverse mediante técnicas de Ciencia de Datos.
Esta etapa recibe el nombre de Analytic Approach (Enfoque Analítico) y constituye el puente entre el conocimiento del dominio y la implementación técnica de la solución.
Mientras que en la fase anterior se definieron el problema, los objetivos, los usuarios, las restricciones y los criterios de éxito, en esta etapa se responde a una nueva pregunta:
¿Qué tipo de análisis o de solución basada en Ciencia de Datos permitirá resolver este problema?
Es importante destacar que todavía no se seleccionan algoritmos concretos. No se decide si utilizar Random Forest, XGBoost, Redes Neuronales o cualquier otro modelo. Esas decisiones pertenecen a la fase de Modeling.
En esta etapa únicamente se determina cuál es el enfoque analítico más adecuado para abordar el problema.
¿Qué es Analytic Approach?
Analytic Approach es la fase de la metodología en la que se transforma un problema del mundo real en un problema de Ciencia de Datos.
Su finalidad es identificar el tipo de solución analítica más apropiada para alcanzar los objetivos definidos durante la fase de Business Understanding.
Dependiendo del problema, la solución podrá abordarse mediante:
- Clasificación.
- Regresión.
- Series temporales.
- Clustering.
- Sistemas de recomendación.
- Detección de anomalías.
- Procesamiento del Lenguaje Natural (NLP).
- Visión Artificial.
- Inteligencia Artificial Generativa.
- Otras técnicas de aprendizaje automático.
La elección del enfoque condicionará todas las etapas posteriores del proyecto, incluyendo los datos necesarios, las métricas de evaluación y los modelos que finalmente podrán utilizarse.
¿Por qué constituye una etapa independiente?
Uno de los errores más frecuentes consiste en pasar directamente desde la comprensión del negocio al análisis de los datos.
Sin embargo, antes de comenzar a trabajar con el dataset es necesario responder una cuestión fundamental:
¿Qué tipo de problema voy a resolver?
La respuesta determinará completamente el desarrollo posterior del proyecto.
Por ejemplo, supongamos que queremos desarrollar un sistema relacionado con el almacenamiento global de agua.
Dependiendo del objetivo planteado durante la fase de Business Understanding, el enfoque analítico podría ser completamente distinto.
Objetivo 1
Estimar cuánta agua estará almacenada dentro de seis meses.
En este caso el problema corresponde a una regresión o a una predicción de series temporales.
Objetivo 2
Determinar si una región sufrirá una sequía.
Ahora el problema pasa a ser una clasificación binaria.
Objetivo 3
Agrupar regiones con comportamientos hidrológicos similares.
En este caso el enfoque adecuado sería un problema de clustering.
Objetivo 4
Detectar comportamientos anómalos en los sensores.
Aquí el problema pertenece al ámbito de la detección de anomalías.
Como puede observarse, el conjunto de datos podría ser exactamente el mismo, mientras que el enfoque analítico cambia completamente según el objetivo del proyecto.
Por este motivo, esta fase debe realizarse antes de comenzar el análisis de los datos.
Objetivos de Analytic Approach
El propósito de esta etapa consiste en definir cómo será abordado el problema desde el punto de vista de la Ciencia de Datos.
Entre sus principales objetivos destacan:
- Traducir el problema de negocio a un problema analítico.
- Seleccionar el tipo de aprendizaje más adecuado.
- Definir el objetivo que deberá aprender el modelo.
- Determinar cómo se evaluará el rendimiento de la solución.
- Establecer las bases técnicas del proyecto.
Esta información servirá como guía para todas las fases posteriores de la metodología.
Relación con Business Understanding
Aunque ambas etapas están estrechamente relacionadas, persiguen objetivos diferentes.
Business Understanding responde a la pregunta:
¿Qué problema necesita resolverse?
Mientras que Analytic Approach responde:
¿Qué tipo de solución basada en Ciencia de Datos puede resolver ese problema?
Por ejemplo:
Business Understanding
Problema:
Las autoridades sanitarias desean aumentar la cobertura de vacunación frente a la gripe H1N1.
Analytic Approach
Enfoque:
Construir un modelo de clasificación binaria capaz de predecir la probabilidad de que una persona acepte vacunarse.
Todavía no se ha elegido ningún algoritmo.
Únicamente se ha identificado el tipo de problema analítico.
Preguntas que debe responder Analytic Approach
Antes de continuar con la metodología, esta fase debería responder, al menos, las siguientes cuestiones.
¿Qué tipo de problema representa?
Es la pregunta principal de esta etapa.
Algunas posibilidades habituales son:
- Clasificación.
- Regresión.
- Series temporales.
- Clustering.
- Detección de anomalías.
- Recomendación.
- Procesamiento del Lenguaje Natural.
- Visión Artificial.
La respuesta condicionará completamente el resto del proyecto.
¿Qué variable o fenómeno se desea predecir?
Debe definirse claramente cuál será el objetivo del modelo.
Por ejemplo:
Proyecto H1N1
Variable objetivo:
- Vacunado.
- No vacunado.
Proyecto de almacenamiento global de agua
Variable objetivo:
- Volumen de agua almacenada.
Proyecto de fraude bancario
Variable objetivo:
- Operación fraudulenta.
- Operación legítima.
¿Qué tipo de aprendizaje será necesario?
Una vez definido el problema, debe determinarse el paradigma de aprendizaje más adecuado.
Algunas posibilidades son:
- Aprendizaje supervisado.
- Aprendizaje no supervisado.
- Aprendizaje semi-supervisado.
- Aprendizaje por refuerzo.
En la mayoría de competiciones de Machine Learning el problema suele pertenecer al aprendizaje supervisado.
¿Cómo se evaluará el éxito?
Antes de construir ningún modelo debe definirse la métrica que permitirá comparar distintas soluciones.
Algunos ejemplos son:
- Accuracy.
- Precision.
- Recall.
- F1-Score.
- ROC-AUC.
- RMSE.
- MAE.
- MAPE.
La elección de la métrica dependerá completamente del tipo de problema identificado.
Flujo de trabajo de Analytic Approach
Aunque cada proyecto presenta particularidades, esta fase suele desarrollarse siguiendo una secuencia bastante estable.
1. Revisar los objetivos definidos durante Business Understanding
Antes de seleccionar un enfoque analítico es necesario verificar que los objetivos del proyecto están claramente definidos.
Esta fase no debe modificar el problema de negocio, sino utilizarlo como punto de partida.
2. Traducir el problema del dominio a un problema analítico
Consiste en expresar el problema utilizando el lenguaje propio de la Ciencia de Datos.
Por ejemplo:
Problema del dominio
Identificar qué personas aceptarán vacunarse.
↓
Problema analítico
Clasificación binaria.
3. Determinar el tipo de aprendizaje
En función del problema identificado, se selecciona el paradigma de aprendizaje más adecuado.
Por ejemplo:
- Supervisado.
- No supervisado.
- Semi-supervisado.
- Aprendizaje por refuerzo.
4. Definir la variable objetivo
Debe establecerse claramente cuál será la salida esperada del modelo.
En algunos proyectos será una categoría; en otros, un valor continuo o incluso una secuencia temporal.
5. Seleccionar las métricas de evaluación
Por último, se definen las métricas que permitirán medir objetivamente el rendimiento del modelo durante las fases posteriores del proyecto.
Estas métricas deberán mantenerse durante todo el ciclo de desarrollo para garantizar una evaluación consistente.
Resultado esperado de Analytic Approach
Al finalizar esta etapa debe existir un documento técnico que describa con claridad:
- El tipo de problema de Ciencia de Datos que representa el proyecto.
- El paradigma de aprendizaje seleccionado.
- La variable objetivo que aprenderá el modelo.
- Las métricas que permitirán evaluar su rendimiento.
- La justificación del enfoque analítico elegido.
Este documento servirá como puente entre el conocimiento del dominio adquirido durante Business Understanding y las siguientes fases de la metodología, comenzando por Data Requirements, donde se definirán los datos necesarios para desarrollar la solución propuesta.








