Categoría: Competition Projects

LLM Classification Finetuning
Predicción de Preferencias Humanas entre Modelos de Lenguaje (LLM)

La inteligencia artificial conversacional ha experimentado un crecimiento extraordinario durante los últimos años. Modelos como GPT, Gemini, Claude, Llama o Qwen son capaces de responder preguntas, redactar textos, generar código o resolver problemas complejos. Sin embargo, disponer de un modelo técnicamente potente no garantiza que sus respuestas sean las que los usuarios prefieren.

En este proyecto participaremos en una competición de Kaggle cuyo objetivo es desarrollar un modelo de aprendizaje automático capaz de predecir qué respuesta será la preferida por un usuario cuando compara las respuestas generadas por dos grandes modelos de lenguaje (LLM). Este tipo de problemas constituye uno de los pilares del desarrollo de asistentes de inteligencia artificial modernos y está estrechamente relacionado con el aprendizaje por refuerzo basado en retroalimentación humana (RLHF).

Actualmente el proyecto se encuentra en fase de elaboración. En los próximos artículos iremos documentando todo el proceso, desde el análisis exploratorio de los datos hasta la construcción y evaluación de diferentes modelos de Machine Learning y Deep Learning.

Objetivo del proyecto

El objetivo consiste en construir un clasificador que, a partir de un prompt y de las respuestas generadas por dos modelos de lenguaje distintos, sea capaz de predecir cuál de ellas será elegida por el usuario.

Cada conversación pertenece a una de las siguientes categorías:
- Victoria del Modelo A.
- Victoria del Modelo B.
- Empate entre ambas respuestas.
El modelo deberá estimar la probabilidad de cada una de estas tres clases.

¿Por qué es importante este problema?

Los grandes modelos de lenguaje se utilizan cada vez más en aplicaciones reales como asistentes virtuales, buscadores inteligentes, herramientas de programación o sistemas de atención al cliente.

Sin embargo, evaluar automáticamente la calidad de una respuesta sigue siendo un problema abierto. Dos respuestas pueden ser técnicamente correctas y, aun así, los usuarios pueden preferir una sobre otra por motivos como:
- Claridad.
- Precisión.
- Longitud adecuada.
- Naturalidad.
- Organización de la información.
- Facilidad de comprensión.
Aprender estas preferencias humanas permite desarrollar asistentes más útiles y satisfactorios para los usuarios.

Relación con RLHF

Esta competición está directamente relacionada con el aprendizaje por refuerzo a partir de retroalimentación humana (Reinforcement Learning from Human Feedback, RLHF).

En lugar de entrenar un modelo únicamente con datos etiquetados, se utilizan las preferencias reales de los usuarios para construir un modelo de recompensa (Reward Model) capaz de estimar cuál de dos respuestas resulta más atractiva.

Posteriormente, estos modelos de recompensa pueden emplearse para mejorar el entrenamiento de nuevos LLM mediante técnicas de aprendizaje por refuerzo.

El conjunto de datos

Los datos proceden de Chatbot Arena, una plataforma donde miles de usuarios comparan respuestas generadas por distintos modelos de lenguaje sin conocer cuál las ha producido.

Cada registro contiene información similar a:
- El prompt introducido por el usuario.
- La respuesta del Modelo A.
- La respuesta del Modelo B.
- La decisión final del usuario.
Esta información proporciona un conjunto de datos muy valioso para estudiar las preferencias humanas frente a respuestas generadas por inteligencia artificial.

Métrica de evaluación

La competición utiliza como métrica la pérdida logarítmica (Log Loss).

Esta métrica evalúa la calidad de las probabilidades predichas por el modelo. Cuanto menor sea la pérdida logarítmica, mejores serán las predicciones.

A diferencia de la precisión (Accuracy), la Log Loss penaliza especialmente las predicciones muy seguras cuando resultan incorrectas.

Tecnologías que utilizaremos

A lo largo del proyecto exploraremos diferentes enfoques, desde modelos clásicos de Machine Learning hasta modelos basados en Transformers.

Entre las herramientas previstas se encuentran:
- Python.
- Pandas.
- NumPy.
- Scikit-learn.
- LightGBM.
- XGBoost.
- CatBoost.
- Hugging Face Transformers.
- Sentence Transformers.
- PyTorch.
- Plotly para visualización.
También analizaremos el rendimiento de diferentes técnicas de representación del texto mediante embeddings modernos.

Metodología del proyecto

El desarrollo seguirá una metodología completa de ciencia de datos.

Las principales fases serán:
1. Comprensión del problema.
2. Análisis exploratorio de los datos (EDA).
3. Limpieza y preparación del texto.
4. Ingeniería de características.
5. Construcción de modelos base.
6. Modelos basados en embeddings.
7. Fine-tuning de Transformers.
8. Optimización de hiperparámetros.
9. Validación y evaluación.
10. Generación de la predicción final para Kaggle.
Cada etapa contará con su correspondiente notebook y explicación detallada.

Qué aprenderemos durante el proyecto

Este proyecto permitirá profundizar en numerosos conceptos relacionados con el procesamiento del lenguaje natural y el aprendizaje automático.

Entre ellos destacan:
- Clasificación multiclase.
- Procesamiento de lenguaje natural (NLP).
- Representación vectorial de texto.
- Embeddings.
- Transformers.
- Modelos de preferencia.
- RLHF.
- Fine-tuning de modelos preentrenados.
- Validación cruzada.
- Ensamblado de modelos.
Estado del proyecto

Actualmente el proyecto se encuentra en fase inicial.

En las próximas publicaciones iremos documentando paso a paso el desarrollo completo de la solución, mostrando tanto los aciertos como los problemas encontrados durante el proceso. El objetivo no será únicamente obtener una buena posición en la clasificación de Kaggle, sino construir un proyecto reproducible y con un fuerte enfoque didáctico que sirva como referencia para cualquier persona interesada en el aprendizaje automático aplicado al procesamiento del lenguaje natural.

Conclusión

La predicción de preferencias humanas entre respuestas generadas por modelos de lenguaje representa uno de los desafíos más interesantes dentro del campo de la inteligencia artificial actual. Combina técnicas de Machine Learning, Deep Learning y Procesamiento del Lenguaje Natural con un objetivo claramente orientado a mejorar la interacción entre personas y sistemas conversacionales.

A lo largo de este proyecto exploraremos distintas estrategias para abordar este problema, compararemos múltiples modelos y analizaremos sus resultados de forma rigurosa. Además de participar en la competición de Kaggle, el proyecto servirá como una excelente oportunidad para profundizar en tecnologías que desempeñan un papel fundamental en el desarrollo de los asistentes de inteligencia artificial de última generación.
junio 27, 2026
Urban Air Pollution Prediction by Ngao Labs
La contaminación atmosférica representa uno de los mayores desafíos ambientales y de salud pública a nivel mundial. Entre los distintos contaminantes presentes en el aire, las partículas finas PM2.5 son especialmente preocupantes debido a su reducido tamaño, que les permite penetrar profundamente en los pulmones e incluso alcanzar el torrente sanguíneo, aumentando el riesgo de enfermedades respiratorias, cardiovasculares y otros problemas de salud.

Restricciones sobre la publicación y uso de los datos

El conjunto de datos utilizado en este proyecto es proporcionado exclusivamente para la participación en la competición Bootcamp Challenge by Ngao Labs: Urban Air Pollution Prediction organizada en la plataforma Zindi.

De acuerdo con las normas de la competición, los datos no pueden ser redistribuidos, publicados ni compartidos con terceros, incluyendo su publicación en repositorios públicos como GitHub, Kaggle o cualquier otro servicio de almacenamiento accesible públicamente. Asimismo, no está permitido utilizar el conjunto de datos para fines distintos a los contemplados por la competición.

Por este motivo, este artículo documenta únicamente la metodología empleada, el proceso de análisis, la ingeniería de características, los modelos desarrollados y los resultados obtenidos, sin reproducir ni distribuir el conjunto de datos original. Las visualizaciones, tablas y ejemplos que puedan incluirse respetarán en todo momento las condiciones de uso establecidas por la organización del desafío.

Estado del proyecto

En elaboración (la competición comienza el 28 de junio de 2026).

En este proyecto se desarrollará un modelo de Machine Learning capaz de predecir la concentración diaria de partículas PM2.5 en ciudades de todo el mundo utilizando información meteorológica y observaciones obtenidas por el satélite Sentinel-5P. El objetivo es estimar la calidad del aire incluso en regiones donde no existen estaciones terrestres de monitorización, proporcionando una herramienta de gran utilidad para la vigilancia ambiental y la toma de decisiones.

Este trabajo forma parte del Bootcamp Challenge by Ngao Labs: Urban Air Pollution Prediction, una competición organizada en la plataforma Zindi cuyo propósito es fomentar el aprendizaje práctico mediante la resolución de problemas reales de ciencia de datos.

Actualmente la competición aún no ha comenzado, por lo que el conjunto de datos todavía no está disponible para los participantes. Una vez publicado, este proyecto documentará todas las fases del desarrollo, desde el análisis exploratorio de los datos hasta la construcción, evaluación y optimización del modelo predictivo.

Objetivo del proyecto

El objetivo principal consiste en construir un modelo de regresión capaz de predecir la concentración diaria de partículas PM2.5 para múltiples ciudades utilizando información procedente de:
- Observaciones del satélite Sentinel-5P.
- Variables meteorológicas.
- Información temporal.
- Variables ambientales proporcionadas por la organización.
El reto consiste en aproximar una medida que normalmente requiere sensores terrestres mediante información obtenida desde satélites y otras fuentes ambientales.

¿Qué es PM2.5?

PM2.5 hace referencia a las partículas en suspensión con un diámetro inferior a 2,5 micrómetros, aproximadamente treinta veces más pequeñas que el grosor de un cabello humano.

Estas partículas pueden permanecer suspendidas en la atmósfera durante largos periodos y desplazarse cientos de kilómetros. Debido a su tamaño, penetran profundamente en el sistema respiratorio y están asociadas con:
- Enfermedades respiratorias.
- Enfermedades cardiovasculares.
- Incremento del riesgo de ictus.
- Agravamiento del asma.
- Mayor vulnerabilidad frente a infecciones respiratorias.
Por ello, la concentración de PM2.5 constituye uno de los principales indicadores utilizados para evaluar la calidad del aire.

Importancia de la predicción de la calidad del aire

La monitorización de la calidad del aire depende habitualmente de estaciones terrestres equipadas con sensores especializados. Sin embargo, muchas regiones del mundo, especialmente en países en desarrollo, cuentan con una cobertura muy limitada.

La utilización de datos satelitales combinados con técnicas de Machine Learning permite estimar los niveles de contaminación incluso en zonas sin infraestructura de medición, facilitando:
- Sistemas de alerta temprana.
- Estudios epidemiológicos.
- Planificación urbana.
- Evaluación de políticas medioambientales.
- Investigación sobre cambio climático.
- Gestión de riesgos para la salud pública.
Descripción de la competición

El desafío consiste en predecir la concentración diaria de partículas PM2.5 utilizando información meteorológica y observaciones atmosféricas registradas por el satélite Sentinel-5P.

El conjunto de datos abarca aproximadamente los últimos tres meses e incluye cientos de ciudades distribuidas por diferentes regiones del mundo.

Se trata de un problema de aprendizaje supervisado de regresión, donde el objetivo es estimar una variable continua correspondiente a la concentración diaria de PM2.5.

Tecnologías previstas

Durante el desarrollo del proyecto se emplearán diferentes herramientas del ecosistema de ciencia de datos en Python, entre ellas:
- Python
- Pandas
- NumPy
- Matplotlib
- Seaborn
- Scikit-learn
- LightGBM
- XGBoost (si está permitido por las reglas de la competición)
- CatBoost
- Optuna para optimización de hiperparámetros
La selección definitiva de modelos dependerá de las características del conjunto de datos una vez esté disponible.

Metodología

El proyecto seguirá una metodología completa de ciencia de datos que incluirá:
- Comprensión del problema.
- Análisis exploratorio de datos (EDA).
- Limpieza y preparación del conjunto de datos.
- Ingeniería de características.
- Selección de variables.
- Entrenamiento de modelos.
- Optimización de hiperparámetros.
- Validación del modelo.
- Generación de predicciones para la competición.
- Análisis de resultados y conclusiones.
Toda la documentación del proceso será publicada progresivamente conforme avance el desarrollo del proyecto.

Estado actual

La competición comenzará el 28 de junio de 2026, por lo que en este momento el conjunto de datos todavía no está disponible.

Una vez publicados los datos se incorporarán nuevas secciones con:
- Análisis exploratorio.
- Estudio de valores ausentes.
- Análisis de correlaciones.
- Ingeniería de variables.
- Evaluación de modelos.
- Comparativa de algoritmos.
- Resultados obtenidos.
- Conclusiones finales.
Próximos pasos

Tras la apertura oficial de la competición se documentarán todas las fases del proyecto, incluyendo tanto los aspectos técnicos como las decisiones adoptadas durante el desarrollo del modelo predictivo.

Este artículo se actualizará de forma continua hasta la finalización del proyecto, mostrando el proceso completo seguido para construir una solución de predicción de contaminación atmosférica basada en datos satelitales y técnicas modernas de Machine Learning.
junio 26, 2026
Barbados Historic Handwriting Challenge
La digitalización del patrimonio documental constituye uno de los mayores desafíos actuales dentro de la preservación histórica. Millones de documentos manuscritos permanecen almacenados en archivos de todo el mundo sin estar disponibles en formato digital debido a la dificultad que supone transcribir textos escritos a mano hace siglos.

El R.O.A.D. Barbados Historic Handwriting Challenge, organizado por Zindi, propone desarrollar un modelo de Inteligencia Artificial capaz de reconocer automáticamente escritura manuscrita histórica procedente de los archivos nacionales de Barbados. El objetivo es convertir imágenes de documentos históricos en texto digital, facilitando su conservación, búsqueda y estudio por parte de investigadores, historiadores y la sociedad en general.

Estado del proyecto

Última actualización: 26 de junio de 2026

🚧 Proyecto en desarrollo

Objetivo del proyecto

El objetivo consiste en desarrollar un sistema de Handwritten Text Recognition (HTR) capaz de transcribir correctamente palabras manuscritas presentes en documentos históricos de los siglos XVIII y XIX.

Cada muestra del conjunto de datos contiene una imagen recortada con una o varias palabras escritas a mano. El modelo deberá aprender a interpretar distintos estilos de escritura antigua, tinta degradada, documentos deteriorados y otras imperfecciones propias del paso del tiempo.

El resultado esperado es una transcripción textual lo más fiel posible al contenido original.

El reto

Este proyecto presenta numerosas dificultades que lo diferencian de un problema clásico de OCR:
- Escritura manuscrita muy variable.
- Caligrafía de los siglos XVIII y XIX.
- Documentos con tinta desvanecida.
- Papel deteriorado.
- Manchas y ruido visual.
- Espaciado irregular entre caracteres y palabras.
- Diferentes tamaños y estilos de escritura.
Todo ello convierte este desafío en un problema avanzado de visión por computador y reconocimiento de texto.

Dataset

El conjunto de datos está compuesto por aproximadamente 6.000 imágenes obtenidas a partir de documentos históricos reales conservados en los archivos nacionales de Barbados. Cada imagen contiene una línea manuscrita con una o varias palabras.

Los documentos originales incluyen:
- Escrituras de propiedad.
- Testamentos.
- Inventarios.
- Registros legales.
- Documentación administrativa histórica.
Por razones de licencia, el conjunto de datos únicamente puede utilizarse durante la competición y no puede redistribuirse ni emplearse para otros fines.

Tecnologías previstas

Durante el desarrollo del proyecto se evaluarán distintas técnicas empleadas habitualmente en reconocimiento de texto manuscrito, entre ellas:
- Python
- PyTorch
- OpenCV
- Transformers
- Vision Transformers (ViT)
- Modelos CNN + BiLSTM + CTC
- TrOCR
- Donut
- Técnicas de Data Augmentation
- Beam Search Decoding
La selección definitiva dependerá de los resultados obtenidos durante la fase experimental.

Métrica de evaluación

La competición utiliza una evaluación combinada basada en dos métricas:
- Character Error Rate (CER), que mide los errores a nivel de carácter.
- Word Error Rate (WER), que mide los errores a nivel de palabra.
La puntuación final corresponde a la media ponderada entre ambas métricas, otorgando el mismo peso a cada una.

Este sistema permite evaluar tanto la precisión ortográfica como la calidad global de la transcripción.

Estado del proyecto

Actualmente el proyecto se encuentra en fase de preparación.

Las siguientes etapas previstas serán:
- Exploración del dataset.
- Análisis de las imágenes.
- Preprocesamiento.
- Construcción del primer modelo base.
- Optimización y experimentación con arquitecturas HTR.
- Evaluación y envío de resultados a la competición.
- Documentación completa del desarrollo.
Una vez comience oficialmente la competición, esta página irá incorporando todas las fases del proyecto, desde el análisis exploratorio hasta la construcción del modelo final y las conclusiones obtenidas.

Próximamente

Próximamente se publicarán:
- Exploración del dataset.
- Análisis de calidad de las imágenes.
- Preprocesamiento para reconocimiento de escritura.
- Modelos base de Handwritten Text Recognition.
- Entrenamiento y validación.
- Comparativa entre arquitecturas.
- Resultados y conclusiones finales.
junio 26, 2026
Forecasting Global Water Storage Challenge
Este proyecto documenta el desarrollo de una solución para la competición A Step Ahead of Drought: Forecasting Global Water Storage Challenge, organizada en la plataforma Zindi como parte de la iniciativa AI for Good de la International Telecommunication Union (ITU). La competición comenzará el 7 de julio de 2026, por lo que actualmente el proyecto se encuentra en fase de planificación y preparación del entorno de trabajo. Esta página se actualizará periódicamente durante todo el desarrollo del proyecto.

Estado del proyecto

🚧 Proyecto en desarrollo

Última actualización: 26 de junio de 2026

Descripción

La predicción temprana de las sequías representa uno de los mayores desafíos actuales en el ámbito de la hidrología, la climatología y la gestión sostenible de los recursos naturales. A diferencia de otros desastres naturales, las sequías evolucionan lentamente, lo que dificulta detectar con suficiente antelación el deterioro de las reservas de agua y adoptar medidas preventivas que reduzcan su impacto sobre la agricultura, los ecosistemas, el abastecimiento de agua y la economía.

En esta competición se propone desarrollar un modelo de Machine Learning capaz de predecir el Total Water Storage (TWS) correspondiente al mes siguiente utilizando información obtenida mediante observación satelital y variables hidrológicas relacionadas con el estado del suelo y las condiciones climáticas.

El Total Water Storage (TWS) representa la cantidad total de agua almacenada sobre y bajo la superficie terrestre, incluyendo aguas subterráneas, humedad del suelo, nieve y aguas superficiales. Estas mediciones son obtenidas por la misión satelital GRACE de la NASA. Sin embargo, los productos oficiales presentan un retraso aproximado de entre dos y tres meses respecto al momento de adquisición, limitando su utilización para la monitorización casi en tiempo real de las condiciones hidrológicas.

El objetivo principal consiste en construir un modelo capaz de estimar el valor futuro de TWS con un horizonte de predicción de un mes, proporcionando una herramienta que pueda contribuir a una detección más temprana de condiciones de sequía.

Este proyecto servirá como un caso práctico de aplicación de técnicas avanzadas de Ciencia de Datos sobre un problema real de observación de la Tierra, combinando análisis espacial, series temporales y aprendizaje automático.

Objetivos del proyecto

Los principales objetivos que se pretenden alcanzar durante el desarrollo son:
- Comprender la estructura y características del conjunto de datos proporcionado por la competición.
- Analizar datos geoespaciales almacenados en formato NetCDF utilizando Python y xarray.
- Realizar un Análisis Exploratorio de Datos (EDA) específico para variables hidrológicas y climáticas.
- Estudiar la evolución temporal del almacenamiento total de agua.
- Desarrollar nuevas variables mediante técnicas de Ingeniería de Características.
- Construir diferentes modelos de regresión para la predicción del TWS.
- Comparar distintas estrategias de validación temporal.
- Analizar la interpretabilidad del modelo mediante técnicas de Explainable AI.
- Documentar todo el proceso siguiendo buenas prácticas reproducibles.
Tecnologías previstas

Durante el desarrollo del proyecto se utilizarán principalmente las siguientes herramientas:
- Python
- Pandas
- NumPy
- Xarray
- Scikit-learn
- LightGBM
- CatBoost
- XGBoost
- Plotly
- Matplotlib
- GeoPandas
- Jupyter Notebook
Dependiendo de los resultados obtenidos, también se evaluará la utilización de técnicas más avanzadas para modelado espacial y aprendizaje profundo.

Metodología prevista

El desarrollo seguirá una metodología estructurada similar a la utilizada en otros proyectos de Ciencia de Datos documentados en este sitio web.

Las principales fases serán:
1. Comprensión del problema.
2. Exploración del conjunto de datos.
3. Limpieza y preparación de los datos.
4. Ingeniería de características.
5. Análisis espacial y temporal.
6. Entrenamiento de modelos de Machine Learning.
7. Optimización de hiperparámetros.
8. Evaluación del rendimiento.
9. Interpretabilidad del modelo.
10. Elaboración de la solución final.
Cada una de estas etapas contará con su propia documentación técnica, análisis y conclusiones.

Contenido que se irá incorporando

A medida que avance la competición esta página se actualizará con nuevas secciones, entre las que se incluyen:
- Introducción al conjunto de datos.
- Exploración de las variables.
- Análisis de valores perdidos.
- Visualizaciones geoespaciales.
- Análisis temporal del Total Water Storage.
- Ingeniería de características espaciales y temporales.
- Desarrollo de modelos base.
- Comparativa entre algoritmos.
- Optimización mediante búsqueda de hiperparámetros.
- Interpretabilidad mediante SHAP.
- Resultados obtenidos.
- Conclusiones y trabajo futuro.
Sobre la competición

La competición plantea un problema de regresión a gran escala con más de dos millones de observaciones de entrenamiento. Además del rendimiento predictivo, la evaluación final considera aspectos relacionados con la transparencia, la mitigación de sesgos, la reutilización del modelo, la sostenibilidad computacional y la aplicabilidad práctica de la solución desarrollada.

Este enfoque convierte el reto en una excelente oportunidad para aplicar técnicas modernas de Ciencia de Datos sobre un problema de gran impacto social y medioambiental.

Estado actual

Actualmente el proyecto se encuentra en fase de preparación.

Las primeras tareas previstas serán:
- Configuración del entorno de trabajo.
- Descarga y exploración inicial del conjunto de datos.
- Estudio de la estructura de los archivos NetCDF.
- Diseño del flujo de trabajo para el análisis exploratorio.
- Definición de la estrategia de validación temporal.
Las siguientes actualizaciones se publicarán conforme avance el desarrollo del proyecto y se disponga de nuevos resultados.

Conclusión

Este proyecto pretende documentar de forma completa el desarrollo de una solución de Machine Learning para la predicción del almacenamiento total de agua utilizando datos de observación terrestre. Además de buscar un buen rendimiento en la competición, el objetivo es construir una solución reproducible, interpretable y bien documentada que sirva como caso práctico de aplicación de técnicas de Ciencia de Datos, análisis geoespacial y aprendizaje automático sobre un problema real con impacto ambiental.

Esta página permanecerá en constante actualización hasta la finalización del proyecto, incorporando tanto los avances técnicos como las decisiones de diseño, experimentos y resultados obtenidos durante el desarrollo.
junio 26, 2026
Predict H1N1 and Seasonal Flu Vaccines
El proyecto Predict H1N1 and Seasonal Flu Vaccines tiene como objetivo desarrollar modelos de Machine Learning capaces de predecir si una persona recibirá la vacuna contra la gripe H1N1 y la vacuna contra la gripe estacional a partir de información demográfica, socioeconómica, médica y conductual.

Este proyecto, basado en la competición de DrivenData, documenta de forma completa todas las etapas de un proyecto de Ciencia de Datos, desde el análisis exploratorio y el tratamiento de datos faltantes hasta la ingeniería de características, la construcción de modelos, la optimización de hiperparámetros y la evaluación del rendimiento mediante la métrica ROC-AUC.

A lo largo del desarrollo se analizan en detalle los patrones de ausencia de datos, la importancia de las variables, la selección de características y las decisiones tomadas para construir un modelo robusto y reproducible, mostrando un flujo de trabajo completo aplicable a problemas reales de clasificación.

Articulos relacionados
- Descripcion del problema
junio 26, 2026