Manejo de Datos Faltantes – fernandorioseco.es

Contenido

Uno de los problemas más comunes en cualquier análisis de datos es la presencia de valores faltantes. No importa si trabajas con datos de clientes, de sensores, o de ventas: los huecos están ahí, casi siempre. Y si no los manejas bien, cualquier análisis que hagas puede llevarte a conclusiones incorrectas o sesgadas.

Pero no te preocupes. Hay estrategias simples y efectivas para detectar, entender y manejar los datos faltantes de manera profesional. En este artículo aprenderás cómo hacerlo paso a paso.

¿Qué son los datos faltantes?

Decimos que hay datos faltantes cuando una variable no tiene valor para una observación determinada. En la práctica, suelen aparecer como NULL, NaN, #N/A o simplemente celdas vacías.

Por ejemplo, imagina que trabajas con los datos de ventas de varias tiendas de ropa y te encuentras con esto:

StoreID	ProductID	ProductColor	Price
A	1	Red	20
B	3	Blue	18
C	1	NULL	20
C	2	NULL	25

Aquí, las tiendas del grupo C no informaron el color del producto. Si no corriges este problema, cualquier análisis sobre los colores más vendidos será inexacto.

Por qué es importante gestionar los datos faltantes

Tener valores ausentes no solo significa un dataset incompleto. También puede distorsionar tus conclusiones. Por ejemplo, si intentas calcular la media de precios o la correlación entre variables sin tratarlos, obtendrás resultados falsos o sin sentido.

Desde el punto de vista estadístico, manejar los datos faltantes aumenta el poder estadístico (la capacidad de detectar patrones reales en los datos) y reduce el riesgo de errores de interpretación.

En resumen:

Mejora la precisión del análisis.
Evita conclusiones engañosas.
Permite conservar el tamaño de la muestra y su representatividad.

Por qué faltan los datos

Existen varias causas típicas:

Errores o causas sistemáticas: El dato nunca se registró. Puede deberse a un descuido humano o a un fallo técnico.
Privacidad o consentimiento: A veces los usuarios optan por no proporcionar ciertos datos, como su correo electrónico o edad.
Pérdida o corrupción de información: Errores de conexión, fallos en la base de datos o interrupciones durante la carga de información pueden causar huecos.

Tipos de datos faltantes

No todos los datos faltantes son iguales. En ciencia de datos se clasifican en cuatro tipos:

Estructuralmente faltantes (Expected Missing): Es normal que falten: por ejemplo, si alguien responde “no tengo asma”, es lógico que los campos sobre inhaladores estén vacíos.
MCAR (Missing Completely at Random): Faltan al azar, sin ningún patrón. Es el caso ideal, aunque poco frecuente.
MAR (Missing at Random): Faltan por alguna razón, pero dentro de ciertos grupos.
Ejemplo: personas con un IMC alto tienden a no reportar su peso.
MNAR (Missing Not at Random): Faltan por una razón directamente relacionada con el valor faltante. Por ejemplo, si los pacientes con presión arterial muy alta evitan hacerse la medición.

Cómo identificar los datos faltantes

Explora pequeñas muestras de datos:
Visualiza las primeras o últimas filas para ver si hay celdas vacías.
Usa funciones de resumen:
En Python, data.isnull().sum() te mostrará cuántos valores faltan por columna.
Compara recuentos:
Si una columna tiene menos registros válidos que otras, probablemente tenga valores ausentes.

Estrategias para manejar los datos faltantes

1. Eliminación (borrar los datos faltantes)

A veces la mejor solución es simplemente eliminar filas o columnas con datos faltantes.
Pero cuidado: no siempre es seguro.

Cuándo eliminar

Cuando los datos faltantes son pocos (menos del 5% del total).
Cuando los valores faltan al azar (MCAR o MAR).
Cuando los datos faltantes no afectan directamente al análisis principal.

Cuándo no eliminar

Si perderías demasiadas observaciones (más del 20%).
Si los datos faltan por una razón estructural o sistemática.

Tipos de eliminación

Eliminación por lista:
Borra toda la fila con cualquier dato faltante.

data.dropna(inplace=True)

data.dropna(inplace=True)

Eliminación por pares:
Solo elimina las filas que afecten a las variables que estás analizando.

data.dropna(subset=['Height', 'Education'], inplace=True)

data.dropna(subset=['Height', 'Education'], inplace=True)

Eliminación de variables:
Si a una columna le falta más del 60% de los datos, puede ser mejor eliminarla por completo.

2. Imputación (rellenar los huecos)

Cuando los datos son valiosos y no conviene eliminarlos, podemos reemplazar los valores faltantes por otros estimados.

Algunas estrategias:

Media, mediana o moda

Reemplaza los valores faltantes por el promedio, la mediana o el valor más común.

data['Age'].fillna(data['Age'].mean(), inplace=True)

data['Age'].fillna(data['Age'].mean(), inplace=True)

Forward Fill (LOCF)

Usa el valor anterior para completar el actual (útil en series temporales).

data['Value'].ffill(inplace=True)

data['Value'].ffill(inplace=True)

Interpolación

Calcula un valor intermedio entre los datos vecinos:

data['Temperature'].interpolate(inplace=True)

data['Temperature'].interpolate(inplace=True)

Modelos predictivos

Utiliza algoritmos de Machine Learning (como regresión lineal o KNN) para estimar los valores faltantes en base a otras variables.

Caso especial: datos faltantes en series temporales

Cuando los datos se registran en el tiempo (como precios bursátiles o sensores IoT), los huecos pueden rellenarse con métodos temporales, como:

LOCF (Last Observation Carried Forward)
Interpolación lineal
Suavizado exponencial

Por ejemplo:

Timestamp	Value
08:01	12
08:02	13
08:03	Falta
08:04	16

Podemos reemplazar el valor faltante (08:03) con el anterior (13) o con un promedio (14.5).

Recomendaciones finales

Entiende el contexto de tus datos.
No todos los huecos significan error.
Documenta tus decisiones.
Explica por qué imputaste, eliminaste o dejaste un valor vacío.
Evalúa el impacto.
Comprueba cómo cambian tus resultados antes y después del tratamiento.

En resumen

Estrategia	Cuándo usarla	Riesgo
Eliminación por lista	Pocos valores faltantes	Pérdida de datos
Eliminación por pares	Solo faltan algunas variables	Mínimo
Imputación media/mediana	Datos numéricos simples	Sesgo posible
LOCF o Interpolación	Series temporales	Puede suavizar en exceso
Modelos predictivos	Datos complejos o correlacionados	Mayor esfuerzo computacional

Manejar los datos faltantes no se trata solo de “rellenar huecos”, sino de preservar la integridad del análisis. Un buen tratamiento puede marcar la diferencia entre un modelo fiable y uno que toma decisiones erróneas. En análisis de datos, la ausencia también habla: cada valor faltante tiene una historia detrás, y entenderla es parte del trabajo de un buen analista.