La contaminación atmosférica representa uno de los mayores desafíos ambientales y de salud pública a nivel mundial. Entre los distintos contaminantes presentes en el aire, las partículas finas PM2.5 son especialmente preocupantes debido a su reducido tamaño, que les permite penetrar profundamente en los pulmones e incluso alcanzar el torrente sanguíneo, aumentando el riesgo de enfermedades respiratorias, cardiovasculares y otros problemas de salud.
Restricciones sobre la publicación y uso de los datos
El conjunto de datos utilizado en este proyecto es proporcionado exclusivamente para la participación en la competición Bootcamp Challenge by Ngao Labs: Urban Air Pollution Prediction organizada en la plataforma Zindi.
De acuerdo con las normas de la competición, los datos no pueden ser redistribuidos, publicados ni compartidos con terceros, incluyendo su publicación en repositorios públicos como GitHub, Kaggle o cualquier otro servicio de almacenamiento accesible públicamente. Asimismo, no está permitido utilizar el conjunto de datos para fines distintos a los contemplados por la competición.
Por este motivo, este artículo documenta únicamente la metodología empleada, el proceso de análisis, la ingeniería de características, los modelos desarrollados y los resultados obtenidos, sin reproducir ni distribuir el conjunto de datos original. Las visualizaciones, tablas y ejemplos que puedan incluirse respetarán en todo momento las condiciones de uso establecidas por la organización del desafío.
Estado del proyecto
En elaboración (la competición comienza el 28 de junio de 2026).
En este proyecto se desarrollará un modelo de Machine Learning capaz de predecir la concentración diaria de partículas PM2.5 en ciudades de todo el mundo utilizando información meteorológica y observaciones obtenidas por el satélite Sentinel-5P. El objetivo es estimar la calidad del aire incluso en regiones donde no existen estaciones terrestres de monitorización, proporcionando una herramienta de gran utilidad para la vigilancia ambiental y la toma de decisiones.
Este trabajo forma parte del Bootcamp Challenge by Ngao Labs: Urban Air Pollution Prediction, una competición organizada en la plataforma Zindi cuyo propósito es fomentar el aprendizaje práctico mediante la resolución de problemas reales de ciencia de datos.
Actualmente la competición aún no ha comenzado, por lo que el conjunto de datos todavía no está disponible para los participantes. Una vez publicado, este proyecto documentará todas las fases del desarrollo, desde el análisis exploratorio de los datos hasta la construcción, evaluación y optimización del modelo predictivo.
Objetivo del proyecto
El objetivo principal consiste en construir un modelo de regresión capaz de predecir la concentración diaria de partículas PM2.5 para múltiples ciudades utilizando información procedente de:
- Observaciones del satélite Sentinel-5P.
- Variables meteorológicas.
- Información temporal.
- Variables ambientales proporcionadas por la organización.
El reto consiste en aproximar una medida que normalmente requiere sensores terrestres mediante información obtenida desde satélites y otras fuentes ambientales.
¿Qué es PM2.5?
PM2.5 hace referencia a las partículas en suspensión con un diámetro inferior a 2,5 micrómetros, aproximadamente treinta veces más pequeñas que el grosor de un cabello humano.
Estas partículas pueden permanecer suspendidas en la atmósfera durante largos periodos y desplazarse cientos de kilómetros. Debido a su tamaño, penetran profundamente en el sistema respiratorio y están asociadas con:
- Enfermedades respiratorias.
- Enfermedades cardiovasculares.
- Incremento del riesgo de ictus.
- Agravamiento del asma.
- Mayor vulnerabilidad frente a infecciones respiratorias.
Por ello, la concentración de PM2.5 constituye uno de los principales indicadores utilizados para evaluar la calidad del aire.
Importancia de la predicción de la calidad del aire
La monitorización de la calidad del aire depende habitualmente de estaciones terrestres equipadas con sensores especializados. Sin embargo, muchas regiones del mundo, especialmente en países en desarrollo, cuentan con una cobertura muy limitada.
La utilización de datos satelitales combinados con técnicas de Machine Learning permite estimar los niveles de contaminación incluso en zonas sin infraestructura de medición, facilitando:
- Sistemas de alerta temprana.
- Estudios epidemiológicos.
- Planificación urbana.
- Evaluación de políticas medioambientales.
- Investigación sobre cambio climático.
- Gestión de riesgos para la salud pública.
Descripción de la competición
El desafío consiste en predecir la concentración diaria de partículas PM2.5 utilizando información meteorológica y observaciones atmosféricas registradas por el satélite Sentinel-5P.
El conjunto de datos abarca aproximadamente los últimos tres meses e incluye cientos de ciudades distribuidas por diferentes regiones del mundo.
Se trata de un problema de aprendizaje supervisado de regresión, donde el objetivo es estimar una variable continua correspondiente a la concentración diaria de PM2.5.
Tecnologías previstas
Durante el desarrollo del proyecto se emplearán diferentes herramientas del ecosistema de ciencia de datos en Python, entre ellas:
- Python
- Pandas
- NumPy
- Matplotlib
- Seaborn
- Scikit-learn
- LightGBM
- XGBoost (si está permitido por las reglas de la competición)
- CatBoost
- Optuna para optimización de hiperparámetros
La selección definitiva de modelos dependerá de las características del conjunto de datos una vez esté disponible.
Metodología
El proyecto seguirá una metodología completa de ciencia de datos que incluirá:
- Comprensión del problema.
- Análisis exploratorio de datos (EDA).
- Limpieza y preparación del conjunto de datos.
- Ingeniería de características.
- Selección de variables.
- Entrenamiento de modelos.
- Optimización de hiperparámetros.
- Validación del modelo.
- Generación de predicciones para la competición.
- Análisis de resultados y conclusiones.
Toda la documentación del proceso será publicada progresivamente conforme avance el desarrollo del proyecto.
Estado actual
La competición comenzará el 28 de junio de 2026, por lo que en este momento el conjunto de datos todavía no está disponible.
Una vez publicados los datos se incorporarán nuevas secciones con:
- Análisis exploratorio.
- Estudio de valores ausentes.
- Análisis de correlaciones.
- Ingeniería de variables.
- Evaluación de modelos.
- Comparativa de algoritmos.
- Resultados obtenidos.
- Conclusiones finales.
Próximos pasos
Tras la apertura oficial de la competición se documentarán todas las fases del proyecto, incluyendo tanto los aspectos técnicos como las decisiones adoptadas durante el desarrollo del modelo predictivo.
Este artículo se actualizará de forma continua hasta la finalización del proyecto, mostrando el proceso completo seguido para construir una solución de predicción de contaminación atmosférica basada en datos satelitales y técnicas modernas de Machine Learning.
