Business Understanding (Comprensión del negocio)

Escrito por

en

La primera etapa de cualquier proyecto de Ciencia de Datos

Todo proyecto de Ciencia de Datos comienza mucho antes de cargar un conjunto de datos o escribir la primera línea de código. Antes de seleccionar algoritmos, analizar variables o entrenar modelos de Machine Learning, es imprescindible comprender el problema que se pretende resolver.

Esta fase inicial recibe el nombre de Business Understanding (Comprensión del negocio) y constituye el punto de partida de metodologías ampliamente utilizadas como CRISP-DM, IBM Data Science Methodology o Team Data Science Process (TDSP).

Aunque su nombre hace referencia al “negocio”, este concepto no debe interpretarse únicamente en un contexto empresarial. El término business hace referencia al dominio del problema, independientemente de que se trate de una empresa, una administración pública, una investigación científica, una competición de Machine Learning o un proyecto personal.

Por ejemplo:

  • En un proyecto sobre predicción del almacenamiento global de agua, el “negocio” es la hidrología y la gestión de los recursos hídricos.
  • En un proyecto de predicción de vacunación frente a la gripe H1N1, el dominio corresponde a la salud pública y la epidemiología.
  • En un sistema de detección de fraude, el contexto es el sector financiero.
  • En un recomendador de cursos, el dominio es la educación.

En todos los casos, el objetivo es el mismo: comprender el problema real antes de intentar resolverlo mediante ciencia de datos.

¿Qué es Business Understanding?

Business Understanding es la fase en la que se analiza el problema desde el punto de vista del dominio de aplicación para definir claramente qué se pretende conseguir, por qué es importante resolverlo y cómo se medirá el éxito del proyecto.

Durante esta etapa todavía no se trabaja con los datos. El foco se sitúa en comprender el contexto, las necesidades y las limitaciones del problema. En otras palabras, esta fase responde a preguntas como:

  • ¿Qué problema se quiere resolver?
  • ¿Por qué existe ese problema?
  • ¿Quién necesita la solución?
  • ¿Qué impacto tendrá resolverlo?
  • ¿Cómo se evaluará el éxito del proyecto?
  • ¿Qué papel desempeñará la ciencia de datos en la solución?

El resultado debe ser una definición precisa del problema que sirva de guía para todas las fases posteriores.

¿Por qué es la primera etapa del proyecto?

Una de las causas más frecuentes de fracaso en proyectos de Ciencia de Datos consiste en desarrollar modelos técnicamente muy buenos para resolver un problema que nunca fue correctamente definido.

Es habitual comenzar un proyecto abriendo un archivo CSV y explorando las variables disponibles. Sin embargo, hacerlo sin comprender previamente el contexto puede conducir a errores importantes.

Por ejemplo, imaginemos un proyecto cuyo objetivo es predecir el almacenamiento global de agua.

Si el científico de datos desconoce cómo funciona el ciclo hidrológico, difícilmente podrá interpretar correctamente variables relacionadas con:

  • Precipitaciones.
  • Evapotranspiración.
  • Humedad del suelo.
  • Acuíferos.
  • Embalses.
  • Cobertura de nieve.
  • Temperatura.

Del mismo modo, en un proyecto sobre vacunación frente a la gripe H1N1 resulta fundamental comprender previamente aspectos como:¿

  • ¿Cómo se desarrollan las campañas de vacunación?
  • ¿Qué factores influyen en la decisión de vacunarse?
  • ¿Qué grupos presentan mayor riesgo?
  • ¿Qué utilidad tendría predecir la aceptación de la vacuna?

Este conocimiento permitirá posteriormente interpretar correctamente las variables del conjunto de datos y tomar decisiones de preprocesamiento mucho más fundamentadas.

Objetivos de Business Understanding

La fase de Business Understanding persigue varios objetivos fundamentales:

  • Comprender el problema desde la perspectiva del dominio de aplicación.
  • Definir claramente los objetivos del proyecto.
  • Identificar quién utilizará los resultados.
  • Establecer los criterios que determinarán el éxito del proyecto.
  • Detectar restricciones técnicas, temporales o legales.
  • Transformar un problema del mundo real en un problema susceptible de resolverse mediante ciencia de datos.

Todos estos objetivos constituyen la base sobre la que se construirá el resto del proyecto.

Preguntas que debe responder Business Understanding

Antes de continuar con la metodología, esta fase debería permitir responder, como mínimo, a las siguientes preguntas:

¿Cuál es el problema real?

Debe describirse el problema utilizando el lenguaje propio del dominio, evitando hablar todavía de algoritmos o modelos.

Por ejemplo:

Incorrecto

Desarrollar un modelo de clasificación.

Correcto

Identificar qué personas presentan mayor probabilidad de vacunarse frente a la gripe H1N1 para optimizar las campañas de salud pública.

¿Por qué es importante resolverlo?

Todo proyecto debe aportar algún tipo de valor.

Ese valor puede traducirse en:

  • Reducción de costes.
  • Optimización de recursos.
  • Mejora de procesos.
  • Incremento de beneficios.
  • Apoyo a la toma de decisiones.
  • Generación de conocimiento científico.

¿Quién utilizará la solución?

Es importante identificar a los usuarios finales del proyecto. Conocer a los destinatarios ayuda a orientar correctamente el desarrollo del proyecto. Dependiendo del caso, pueden ser:

  • Empresas.
  • Organismos públicos.
  • Investigadores.
  • Médicos.
  • Ingenieros.
  • Agricultores.
  • Usuarios finales.

¿Qué impacto tendrá la solución?

Debe explicarse cómo contribuirá el proyecto a resolver el problema identificado. Por ejemplo: En un proyecto de predicción del almacenamiento global de agua, un sistema de predicción preciso podría permitir:

  • Anticipar periodos de sequía.
  • Optimizar la gestión de embalses.
  • Mejorar la planificación agrícola.
  • Facilitar la toma de decisiones por parte de las administraciones públicas.

En un proyecto de predicción de vacunación H1N1, el modelo podría utilizarse para:

  • Identificar grupos con baja probabilidad de vacunación.
  • Diseñar campañas de concienciación más eficaces.
  • Optimizar la distribución de recursos sanitarios.

Resultado esperado de Business Understanding

Al finalizar esta fase todavía no se ha analizado ningún dato.

Sin embargo, el equipo debe disponer de un documento que describa con claridad:

  • El problema que se pretende resolver.
  • El contexto del dominio.
  • Los objetivos del proyecto.
  • Los usuarios o entidades interesados.
  • El impacto esperado.
  • Las restricciones conocidas.
  • Los criterios que determinarán el éxito del proyecto.

Este documento constituye la referencia para todas las fases posteriores de la metodología y permite asegurar que el desarrollo técnico del proyecto permanezca alineado con el problema real que se desea resolver.

Flujo de trabajo de Business Understanding

Aunque cada proyecto presenta características particulares, la fase de Business Understanding suele seguir una secuencia de trabajo bastante similar. El objetivo es comprender completamente el problema antes de comenzar a trabajar con los datos.

Una metodología reproducible puede estructurarse en las siguientes tareas.

1. Definir el problema del mundo real

El primer paso consiste en describir el problema utilizando el lenguaje propio del dominio y no el de la Ciencia de Datos. En esta etapa todavía no se habla de algoritmos, variables o modelos predictivos.

Por ejemplo:

Proyecto de almacenamiento global de agua

Los recursos hídricos disponibles disminuyen debido al cambio climático y a la creciente demanda de agua. Disponer de predicciones precisas del almacenamiento de agua permitiría mejorar la planificación y gestión de estos recursos.

Proyecto H1N1

No todas las personas aceptan vacunarse frente a la gripe H1N1. Identificar los factores asociados a la vacunación puede ayudar a mejorar las campañas de salud pública.

Sistema de detección de fraude

Las entidades financieras necesitan detectar operaciones fraudulentas antes de que provoquen pérdidas económicas.

El resultado de esta tarea debe ser una descripción clara del problema que cualquier persona pueda comprender sin necesidad de conocimientos técnicos.

2. Comprender el dominio del problema

Una vez definido el problema, es necesario estudiar cómo funciona el dominio en el mundo real. Esta es probablemente la actividad más importante de toda la fase de Business Understanding. El objetivo consiste en responder preguntas como:

  • ¿Cómo funciona realmente el proceso?
  • ¿Qué factores intervienen?
  • ¿Qué conceptos son fundamentales?
  • ¿Qué organismos o entidades participan?
  • ¿Qué indicadores son relevantes?

Por ejemplo, antes de analizar un conjunto de datos sobre almacenamiento global de agua sería recomendable comprender conceptos como:

  • Ciclo hidrológico.
  • Aguas superficiales.
  • Aguas subterráneas.
  • Humedad del suelo.
  • Evapotranspiración.
  • Cobertura de nieve.
  • Embalses.
  • Acuíferos.
  • Balance hídrico.

En un proyecto sanitario sería conveniente estudiar previamente:

  • Funcionamiento de la enfermedad.
  • Factores de riesgo.
  • Protocolos médicos.
  • Variables epidemiológicas.
  • Campañas de prevención.

Este conocimiento permitirá posteriormente interpretar correctamente las variables del conjunto de datos.

3. Identificar a los interesados (Stakeholders)

Todo proyecto pretende aportar valor a uno o varios usuarios. Conocer a los usuarios finales ayuda a comprender mejor cuáles son sus necesidades y expectativas. Es importante identificar quién utilizará los resultados obtenidos.

Algunos ejemplos son:

  • Empresas.
  • Administraciones públicas.
  • Hospitales.
  • Investigadores.
  • Departamentos de marketing.
  • Agricultores.
  • Organismos internacionales.

4. Definir los objetivos del proyecto

Una vez comprendido el problema, deben establecerse los objetivos concretos que se pretenden alcanzar. Estos objetivos deben describirse desde la perspectiva del negocio o del dominio de aplicación.

Por ejemplo:

Proyecto de almacenamiento global de agua

  • Mejorar la gestión de los recursos hídricos.
  • Anticipar periodos de sequía.
  • Facilitar la planificación agrícola.

Proyecto H1N1

  • Incrementar la cobertura vacunal.
  • Identificar grupos de riesgo.
  • Optimizar las campañas de vacunación.

Todavía no se habla del algoritmo que se utilizará.

5. Identificar restricciones

Todo proyecto presenta limitaciones que condicionan el desarrollo de la solución. Entre las más habituales se encuentran:

  • Disponibilidad de datos.
  • Calidad de los datos.
  • Tiempo disponible.
  • Recursos computacionales.
  • Restricciones legales.
  • Coste económico.
  • Requisitos de interpretabilidad.

Estas restricciones deberán tenerse en cuenta durante todo el proyecto.

6. Identificar riesgos

También resulta conveniente identificar los posibles riesgos antes de comenzar el análisis.

Por ejemplo:

  • Datos incompletos.
  • Sesgos en el conjunto de datos.
  • Cambios futuros en el fenómeno estudiado.
  • Errores de medición.
  • Información desactualizada.

Detectar estos riesgos desde el principio facilita la planificación del proyecto.

7. Definir los criterios de éxito

Uno de los errores más frecuentes consiste en considerar que un proyecto tiene éxito simplemente porque el modelo obtiene una buena métrica. En realidad, el éxito debe definirse antes de comenzar el proyecto.

Algunos ejemplos podrían ser:

  • Superar el rendimiento del modelo base.
  • Alcanzar un determinado valor de ROC-AUC.
  • Reducir el error de predicción.
  • Disminuir el número de falsos negativos.
  • Obtener un modelo suficientemente interpretable.
  • Reducir el tiempo de cálculo.

Estos criterios servirán posteriormente para evaluar si la solución realmente cumple los objetivos planteados.

8. Traducir el problema a Ciencia de Datos

La última tarea consiste en transformar el problema del mundo real en un problema que pueda resolverse mediante técnicas de Ciencia de Datos. Esta transición marca el final de la fase de Business Understanding y el comienzo de la siguiente etapa de la metodología.

Por ejemplo:

Problema realProblema de Ciencia de Datos
Predecir quién aceptará vacunarseProblema de clasificación binaria
Estimar el almacenamiento futuro de aguaProblema de regresión o series temporales
Detectar operaciones fraudulentasClasificación binaria
Recomendar cursos de formaciónSistema de recomendación

A partir de este momento el proyecto ya está preparado para definir el enfoque analítico (Analytic Approach) y comenzar la planificación técnica de la solución.

Resultado esperado de la fase

Al finalizar Business Understanding se debe disponer de un documento que describa de forma clara y estructurada:

  • El problema que se pretende resolver.
  • El contexto del dominio.
  • Los conceptos fundamentales del área de conocimiento.
  • Los objetivos del proyecto.
  • Los usuarios o entidades interesadas.
  • Las restricciones existentes.
  • Los riesgos identificados.
  • Los criterios de éxito.
  • La traducción del problema a un problema de Ciencia de Datos.

Este documento constituye la referencia para todas las etapas posteriores y permite mantener el proyecto alineado con las necesidades reales del dominio de aplicación, evitando que las decisiones técnicas se tomen desconectadas del problema que se desea resolver.