Forecasting Global Water Storage Challenge

Contenido

Este proyecto documenta el desarrollo de una solución para la competición A Step Ahead of Drought: Forecasting Global Water Storage Challenge, organizada en la plataforma Zindi como parte de la iniciativa AI for Good de la International Telecommunication Union (ITU). La competición comenzará el 7 de julio de 2026, por lo que actualmente el proyecto se encuentra en fase de planificación y preparación del entorno de trabajo. Esta página se actualizará periódicamente durante todo el desarrollo del proyecto.

Estado del proyecto

🚧 Proyecto en desarrollo

Última actualización: 26 de junio de 2026

Descripción

La predicción temprana de las sequías representa uno de los mayores desafíos actuales en el ámbito de la hidrología, la climatología y la gestión sostenible de los recursos naturales. A diferencia de otros desastres naturales, las sequías evolucionan lentamente, lo que dificulta detectar con suficiente antelación el deterioro de las reservas de agua y adoptar medidas preventivas que reduzcan su impacto sobre la agricultura, los ecosistemas, el abastecimiento de agua y la economía.

En esta competición se propone desarrollar un modelo de Machine Learning capaz de predecir el Total Water Storage (TWS) correspondiente al mes siguiente utilizando información obtenida mediante observación satelital y variables hidrológicas relacionadas con el estado del suelo y las condiciones climáticas.

El Total Water Storage (TWS) representa la cantidad total de agua almacenada sobre y bajo la superficie terrestre, incluyendo aguas subterráneas, humedad del suelo, nieve y aguas superficiales. Estas mediciones son obtenidas por la misión satelital GRACE de la NASA. Sin embargo, los productos oficiales presentan un retraso aproximado de entre dos y tres meses respecto al momento de adquisición, limitando su utilización para la monitorización casi en tiempo real de las condiciones hidrológicas.

El objetivo principal consiste en construir un modelo capaz de estimar el valor futuro de TWS con un horizonte de predicción de un mes, proporcionando una herramienta que pueda contribuir a una detección más temprana de condiciones de sequía.

Este proyecto servirá como un caso práctico de aplicación de técnicas avanzadas de Ciencia de Datos sobre un problema real de observación de la Tierra, combinando análisis espacial, series temporales y aprendizaje automático.

Objetivos del proyecto

Los principales objetivos que se pretenden alcanzar durante el desarrollo son:

Comprender la estructura y características del conjunto de datos proporcionado por la competición.
Analizar datos geoespaciales almacenados en formato NetCDF utilizando Python y xarray.
Realizar un Análisis Exploratorio de Datos (EDA) específico para variables hidrológicas y climáticas.
Estudiar la evolución temporal del almacenamiento total de agua.
Desarrollar nuevas variables mediante técnicas de Ingeniería de Características.
Construir diferentes modelos de regresión para la predicción del TWS.
Comparar distintas estrategias de validación temporal.
Analizar la interpretabilidad del modelo mediante técnicas de Explainable AI.
Documentar todo el proceso siguiendo buenas prácticas reproducibles.

Tecnologías previstas

Durante el desarrollo del proyecto se utilizarán principalmente las siguientes herramientas:

Python
Pandas
NumPy
Xarray
Scikit-learn
LightGBM
CatBoost
XGBoost
Plotly
Matplotlib
GeoPandas
Jupyter Notebook

Dependiendo de los resultados obtenidos, también se evaluará la utilización de técnicas más avanzadas para modelado espacial y aprendizaje profundo.

Metodología prevista

El desarrollo seguirá una metodología estructurada similar a la utilizada en otros proyectos de Ciencia de Datos documentados en este sitio web.

Las principales fases serán:

Comprensión del problema.
Exploración del conjunto de datos.
Limpieza y preparación de los datos.
Ingeniería de características.
Análisis espacial y temporal.
Entrenamiento de modelos de Machine Learning.
Optimización de hiperparámetros.
Evaluación del rendimiento.
Interpretabilidad del modelo.
Elaboración de la solución final.

Cada una de estas etapas contará con su propia documentación técnica, análisis y conclusiones.

Contenido que se irá incorporando

A medida que avance la competición esta página se actualizará con nuevas secciones, entre las que se incluyen:

Introducción al conjunto de datos.
Exploración de las variables.
Análisis de valores perdidos.
Visualizaciones geoespaciales.
Análisis temporal del Total Water Storage.
Ingeniería de características espaciales y temporales.
Desarrollo de modelos base.
Comparativa entre algoritmos.
Optimización mediante búsqueda de hiperparámetros.
Interpretabilidad mediante SHAP.
Resultados obtenidos.
Conclusiones y trabajo futuro.

Sobre la competición

La competición plantea un problema de regresión a gran escala con más de dos millones de observaciones de entrenamiento. Además del rendimiento predictivo, la evaluación final considera aspectos relacionados con la transparencia, la mitigación de sesgos, la reutilización del modelo, la sostenibilidad computacional y la aplicabilidad práctica de la solución desarrollada.

Este enfoque convierte el reto en una excelente oportunidad para aplicar técnicas modernas de Ciencia de Datos sobre un problema de gran impacto social y medioambiental.

Estado actual

Actualmente el proyecto se encuentra en fase de preparación.

Las primeras tareas previstas serán:

Configuración del entorno de trabajo.
Descarga y exploración inicial del conjunto de datos.
Estudio de la estructura de los archivos NetCDF.
Diseño del flujo de trabajo para el análisis exploratorio.
Definición de la estrategia de validación temporal.

Las siguientes actualizaciones se publicarán conforme avance el desarrollo del proyecto y se disponga de nuevos resultados.

Conclusión

Este proyecto pretende documentar de forma completa el desarrollo de una solución de Machine Learning para la predicción del almacenamiento total de agua utilizando datos de observación terrestre. Además de buscar un buen rendimiento en la competición, el objetivo es construir una solución reproducible, interpretable y bien documentada que sirva como caso práctico de aplicación de técnicas de Ciencia de Datos, análisis geoespacial y aprendizaje automático sobre un problema real con impacto ambiental.

Esta página permanecerá en constante actualización hasta la finalización del proyecto, incorporando tanto los avances técnicos como las decisiones de diseño, experimentos y resultados obtenidos durante el desarrollo.