Categoría: Articulos

Transformaciones de Datos Avanzadas: cómo tratar datos sesgados

En el análisis y la ciencia de datos, entender la forma de la distribución de los datos es tan importante como los valores en sí. Muchos modelos estadísticos y de machine learning funcionan mejor —o incluso lo asumen— cuando los datos siguen una distribución normal (gaussiana).

Sin embargo, los datos reales rara vez son perfectos: suelen estar sesgados, contener valores atípicos o tener una dispersión desigual. En este artículo aprenderás:

Qué significa que los datos estén sesgados.
Qué es la transformación logarítmica y por qué es útil.
Cómo implementarla en Python.
Qué otras transformaciones avanzadas pueden aplicarse según la situación.

¿Qué son los datos sesgados?

En una distribución normal, la media, la mediana y la moda coinciden, y la curva tiene forma de campana. Matemáticamente, se puede representar como:

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x – \mu)^2}{2\sigma^2}}$$

donde:

$ \mu $ es la media
$ \sigma $ la desviación estándar.

Sin embargo, muchos conjuntos de datos reales, como ingresos, precios o número de visitas, presentan sesgo (skewness): una asimetría en la distribución.

Si la cola se extiende hacia la derecha, decimos que está sesgada positivamente.
Si se extiende hacia la izquierda, está sesgada negativamente.

Por ejemplo, los ingresos de una población suelen estar sesgados a la derecha, porque hay muchas personas con ingresos bajos y pocas con ingresos muy altos.

¿Por qué importa el sesgo?

El sesgo afecta al análisis porque muchos métodos estadísticos y modelos predictivos suponen que los datos son normales.
Por ejemplo:

En regresión lineal, el error residual se asume normal.
En modelos de clasificación, los algoritmos que usan distancias (como k-NN) pueden verse afectados si las variables no están en escalas comparables o están muy sesgadas.

Reducir el sesgo mejora:

La precisión del modelo.
La interpretabilidad de los resultados.
La estabilidad numérica en el entrenamiento.

Transformación Logarítmica

La transformación logarítmica es una de las herramientas más utilizadas para corregir el sesgo positivo. Consiste en reemplazar cada valor $x$ por su logaritmo:

$$x’ = \log(x)$$

¿Qué hace exactamente?

Comprime los valores grandes, reduciendo el impacto de los outliers.
Expande los valores pequeños, acercando la distribución a una forma más simétrica.

Importante: solo puede aplicarse a valores positivos. Si existen ceros o negativos, hay que desplazarlos previamente (por ejemplo, usando (\log(x + 1))).

Ejemplo en Python

Veamos cómo aplicar esta técnica a un conjunto de datos de precios de viviendas.

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar datos de ejemplo (Kaggle o dataset propio)
home_data = pd.read_csv('home_data.csv')
home_prices = home_data['SalePrice']

# Visualizar la distribución original
sns.histplot(home_prices, kde=True, color="skyblue")
plt.title("Distribución original de precios de viviendas")
plt.show()

# Medir asimetría
print("Asimetría original:", home_prices.skew())

# Aplicar transformación logarítmica
log_home_prices = np.log(home_prices)

# Visualizar la distribución transformada
sns.histplot(log_home_prices, kde=True, color="lightgreen")
plt.title("Distribución tras transformación logarítmica")
plt.show()

# Medir asimetría posterior
print("Asimetría después de log-transform:", log_home_prices.skew())

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar datos de ejemplo (Kaggle o dataset propio)
home_data = pd.read_csv('home_data.csv')
home_prices = home_data['SalePrice']

# Visualizar la distribución original
sns.histplot(home_prices, kde=True, color="skyblue")
plt.title("Distribución original de precios de viviendas")
plt.show()

# Medir asimetría
print("Asimetría original:", home_prices.skew())

# Aplicar transformación logarítmica
log_home_prices = np.log(home_prices)

# Visualizar la distribución transformada
sns.histplot(log_home_prices, kde=True, color="lightgreen")
plt.title("Distribución tras transformación logarítmica")
plt.show()

# Medir asimetría posterior
print("Asimetría después de log-transform:", log_home_prices.skew())

🔹 Salida esperada:

Asimetría original: 1.88
Asimetría después de log-transform: 0.12

Asimetría original: 1.88
Asimetría después de log-transform: 0.12

El cambio es notable: los datos ahora están mucho más cerca de una distribución normal.

Transformación con Scikit-Learn

Otra forma más flexible es usar la clase PowerTransformer de scikit-learn, que aplica una transformación de potencia (Box-Cox o Yeo-Johnson). Esta última admite valores negativos, lo que la hace ideal en contextos más generales.

from sklearn.preprocessing import PowerTransformer
import numpy as np

data = np.array([[1.0], [2.0], [3.0], [10.0], [50.0]])

pt = PowerTransformer(method='yeo-johnson')
transformed = pt.fit_transform(data)

print("Datos transformados:\n", transformed[:5])

from sklearn.preprocessing import PowerTransformer
import numpy as np

data = np.array([[1.0], [2.0], [3.0], [10.0], [50.0]])

pt = PowerTransformer(method='yeo-johnson')
transformed = pt.fit_transform(data)

print("Datos transformados:\n", transformed[:5])

Otras transformaciones avanzadas

Dependiendo del tipo y del sesgo de los datos, se pueden usar diferentes transformaciones:

Tipo de Sesgo	Transformación recomendada	Fórmula	Notas
Sesgo positivo (cola a la derecha)	Logarítmica	$ x’ = \log(x) $	Solo ( x > 0 )
Sesgo positivo (con ceros o negativos)	Yeo-Johnson	—	Admite todo el rango de valores
Sesgo positivo leve	Raíz cuadrada	$x’ = \sqrt{x}$	Suaviza sin comprimir demasiado
Sesgo negativo (cola a la izquierda)	Cuadrática	$x’ = x^2$	Amplifica valores grandes
Valores con ceros y negativos	Raíz cúbica	$x’ = x^{1/3} $	Funciona con ( x < 0 )

Buenas prácticas

Visualiza siempre tus datos antes y después de transformar.
Mide la asimetría $ (\text{skewness})$ antes y después.
No transformes por costumbre: hazlo solo si hay una razón estadística o del modelo.
Guarda los parámetros de transformación si vas a aplicarlos en datos futuros (por ejemplo, en deploy de modelos).
Considera también el escalado posterior (normalización o estandarización).

octubre 30, 2025

Discretizar Datos Numéricos y Contraer Categorías

En ciencia de datos, no siempre trabajamos con variables limpias o perfectamente preparadas. A menudo necesitamos transformarlas para extraer patrones, visualizar mejor o alimentar modelos de aprendizaje automático. En este artículo aprenderás dos técnicas fundamentales dentro del preprocesamiento y transformación de datos:

Agrupar (discretizar) datos numéricos en categorías o intervalos.
Combinar (contraer) categorías en variables categóricas.

Estas operaciones son herramientas simples pero poderosas que te ayudarán a simplificar, resumir y mejorar tus análisis y visualizaciones.

¿Qué es la Agrupación (Binning) de Datos Numéricos?

La agrupación o discretización consiste en transformar una variable numérica continua (por ejemplo, la edad) en categorías o intervalos. Por ejemplo, en lugar de analizar cada edad individualmente (22, 23, 24…), podríamos clasificar a las personas en grupos como:

20–29 años → Jóvenes adultos
30–39 años → Adultos
40–49 años → Edad media

Esta técnica se conoce como binning (de “bins”, que significa “contenedores”).
Es muy común en análisis exploratorio, estadística descriptiva y visualización.

¿Por qué agrupar datos?

Existen varias razones por las que discretizar variables puede ser útil:

Simplifica los datos → Menos categorías, más fácil de interpretar.
Facilita visualizaciones → Histogramas y gráficos de barras más claros.
Reduce el ruido → Los pequeños cambios dejan de ser relevantes.
Mejora algunos modelos → Ciertos algoritmos funcionan mejor con categorías discretas (como árboles de decisión).

En entornos como finanzas o marketing, agrupar variables continuas es habitual:

Rangos de ingresos (bajo, medio, alto).
Rangos de edad (jóvenes, adultos, mayores).
Niveles de gasto o frecuencia de compra.

Ejemplo: Agrupación de edades

Supongamos que tenemos los datos de los alumnos de una clase de baile:

import pandas as pd

dance_class = pd.read_csv('dance_class_data.csv')
print(dance_class.head(5))

import pandas as pd

dance_class = pd.read_csv('dance_class_data.csv')
print(dance_class.head(5))

Salida:

          Name Gender  Age    Experience
0   Chris Shelton      M   23      beginner
1  Douglas Watson      M   28  intermediate
2    Martha Gomez      F   45      beginner
3      Amos Moore      M   63      beginner
4   Valentina Sen      F   35      beginner

          Name Gender  Age    Experience
0   Chris Shelton      M   23      beginner
1  Douglas Watson      M   28  intermediate
2    Martha Gomez      F   45      beginner
3      Amos Moore      M   63      beginner
4   Valentina Sen      F   35      beginner

Queremos agrupar las edades en rangos de 10 años (20–29, 30–39, 40–49…).

Crear contenedores con `pandas.cut()`

bins = [20, 30, 40, 50, 60, 70]
labels = ['20s', '30s', '40s', '50s', '60s']

dance_class['AgeGroup'] = pd.cut(dance_class['Age'], bins=bins, labels=labels)

print(dance_class[['Age', 'AgeGroup']].head())

bins = [20, 30, 40, 50, 60, 70]
labels = ['20s', '30s', '40s', '50s', '60s']

dance_class['AgeGroup'] = pd.cut(dance_class['Age'], bins=bins, labels=labels)

print(dance_class[['Age', 'AgeGroup']].head())

Salida:

   Age AgeGroup
0   23      20s
1   28      20s
2   45      40s
3   63      60s
4   35      30s

   Age AgeGroup
0   23      20s
1   28      20s
2   45      40s
3   63      60s
4   35      30s

Otras funciones útiles

pd.qcut() → Agrupa en cuantiles (por ejemplo, cuartiles o deciles), ideal cuando los datos no están uniformemente distribuidos.
np.histogram_bin_edges() → Permite definir automáticamente los límites de los bins según los datos.

Combinar (Contraer) variables categóricas

No todas las variables son numéricas. En los conjuntos de datos reales, muchas veces encontramos variables categóricas, como el país, la profesión, el color o el tipo de producto.
A veces, estas categorías son demasiado numerosas o desbalanceadas, lo que dificulta el análisis.

Ejemplo práctico

Supón que tienes este conjunto de datos con los deportes más populares:

Sport	Count
Basketball	500
Football	400
Baseball	8
Tennis	7
Cricket	4
Sailing	3

Claramente, los dos primeros deportes dominan la muestra.
Podríamos combinar todas las demás categorías menores en una sola llamada “Others”.

En Python:

import pandas as pd

sports = pd.DataFrame({
    'Sport': ['Basketball', 'Football', 'Baseball', 'Tennis', 'Cricket', 'Sailing'],
    'Count': [500, 400, 8, 7, 4, 3]
})

# Definir umbral mínimo
threshold = 50
sports['Sport_Grouped'] = sports['Sport'].where(sports['Count'] >= threshold, 'Other')

print(sports)

import pandas as pd

sports = pd.DataFrame({
    'Sport': ['Basketball', 'Football', 'Baseball', 'Tennis', 'Cricket', 'Sailing'],
    'Count': [500, 400, 8, 7, 4, 3]
})

# Definir umbral mínimo
threshold = 50
sports['Sport_Grouped'] = sports['Sport'].where(sports['Count'] >= threshold, 'Other')

print(sports)

Salida:

       Sport  Count  Sport_Grouped
0  Basketball    500    Basketball
1    Football    400      Football
2    Baseball      8         Other
3      Tennis      7         Other
4     Cricket      4         Other
5     Sailing      3         Other

       Sport  Count  Sport_Grouped
0  Basketball    500    Basketball
1    Football    400      Football
2    Baseball      8         Other
3      Tennis      7         Other
4     Cricket      4         Other
5     Sailing      3         Other

De esta forma, las categorías menores se combinan en una sola, lo que simplifica el análisis y mejora la visualización.

¿Por qué contraer categorías?

Reduce el ruido visual.
Simplifica modelos de ML, ya que menos categorías implican menos variables dummy tras el one-hot encoding.
Evita el sesgo de categorías minoritarias.

En resumen

Técnica	Qué hace	Cuándo usarla	Ejemplo
Discretización (Binning)	Convierte variables continuas en intervalos	Cuando quieres resumir o suavizar datos	Edad → grupos de edad
Contracción de categorías	Combina etiquetas poco frecuentes en una sola	Cuando hay categorías desbalanceadas	Deportes minoritarios → “Otros”

Ambas técnicas pertenecen al proceso de transformación y limpieza de datos, una etapa crucial del preprocesamiento en ciencia de datos antes de modelar o visualizar.

octubre 30, 2025

Centrado y Escalado de Datos

Como científico de datos, uno de los pasos más importantes antes de visualizar, analizar o modelar información es transformar adecuadamente los datos. En particular, centrar y escalar son operaciones esenciales del preprocesamiento que garantizan que todas las variables contribuyan de manera equilibrada a los modelos estadísticos o de aprendizaje automático.

En este artículo aprenderás:

Qué significa centrar datos e interpretar datos centrados.
Por qué es importante escalar tus datos.
Cómo escalar datos utilizando normalización min–máx y estandarización.
Cuándo elegir entre ambos métodos.

Centrado de Datos

El centrado de los datos consiste en restar la media de un conjunto de valores a cada punto del mismo, de manera que la nueva media sea cero.

$$X^{(centrado)}_i = X_i – \mu$$

donde:

$ X_i $ es un valor individual,
$ \mu $ es la media del conjunto $ X $.

Ejemplo:

Supón que tenemos un conjunto de edades:

ages = [24, 40, 28, 22, 56]

ages = [24, 40, 28, 22, 56]

La media es:

$$\mu = \frac{24 + 40 + 28 + 22 + 56}{5} = 34$$

Al centrar los datos:

$$X^{(centrado)} = [-10, 6, -6, -12, 22]$$

La suma de estos valores es cero, lo que implica que su media también es cero.
Interpretativamente, cada valor indica cuánto se desvía respecto a la media: la primera persona tiene 10 años menos que el promedio, la última 22 años más.

Escalado de Datos

Aunque el centrado corrige el desplazamiento, no resuelve las diferencias de escala entre variables. Por ejemplo, en un conjunto de datos con las variables edad (0–100) e ingresos (0–100,000), el modelo podría interpretar que los ingresos son “más importantes” solo por tener valores mayores.

Los algoritmos de machine learning —como regresión lineal, SVM, k-means o PCA— asumen que todas las variables tienen una escala comparable. Por ello, es fundamental escalar los datos, es decir, ajustar su rango o su dispersión.

Normalización Min–Máx

La normalización min–máx reescala los valores para que todos estén dentro del rango ([0, 1]):

$$X’ = \frac{X – X_{\min}}{X_{\max} – X_{\min}}$$

donde:

$X_{\min}$ y $ X_{\max}$ son el valor mínimo y máximo de la variable.

Ejemplo:

Si $ X_{\min} = 10 ), ( X_{\max} = 30 ), ( X = 20 )$:

$$X’ = \frac{20 – 10}{30 – 10} = 0.5$$

En Python

def min_max_normalize(lst):
    minimum = min(lst)
    maximum = max(lst)
    return [(x - minimum) / (maximum - minimum) for x in lst]

data = [1, 2, 3, 4, 5]
normalized_data = min_max_normalize(data)
print(normalized_data)

def min_max_normalize(lst):
    minimum = min(lst)
    maximum = max(lst)
    return [(x - minimum) / (maximum - minimum) for x in lst]

data = [1, 2, 3, 4, 5]
normalized_data = min_max_normalize(data)
print(normalized_data)

O con scikit-learn:

from sklearn.preprocessing import MinMaxScaler

data = [[1], [2], [3], [4], [5]]
scaler = MinMaxScaler()
normalized = scaler.fit_transform(data)
print(normalized)

from sklearn.preprocessing import MinMaxScaler

data = [[1], [2], [3], [4], [5]]
scaler = MinMaxScaler()
normalized = scaler.fit_transform(data)
print(normalized)

Desventaja

La normalización min–máx no maneja bien los valores atípicos. Si un único dato es muy grande, comprime el rango del resto. En ese caso, la estandarización es una mejor opción.

Estandarización (Z-score)

La estandarización transforma los datos restando la media y dividiendo por la desviación estándar:

$$Z = \frac{X – \mu}{\sigma}$$

donde:

$ \mu $ es la media,
$ \sigma $ es la desviación estándar.

De este modo, la variable resultante tiene:

Media = 0
Desviación estándar = 1

A diferencia de la normalización, no limita los valores a un rango fijo, por lo que no se ve tan afectada por valores extremos.

En Python

def standardize(lst):
    mean = sum(lst) / len(lst)
    std_dev = (sum((x - mean) ** 2 for x in lst) / len(lst)) ** 0.5
    return [(x - mean) / std_dev for x in lst]

data = [1, 2, 3, 4, 5]
standardized = standardize(data)
print(standardized)

def standardize(lst):
    mean = sum(lst) / len(lst)
    std_dev = (sum((x - mean) ** 2 for x in lst) / len(lst)) ** 0.5
    return [(x - mean) / std_dev for x in lst]

data = [1, 2, 3, 4, 5]
standardized = standardize(data)
print(standardized)

O utilizando scikit-learn:

from sklearn.preprocessing import StandardScaler

data = [[1], [2], [3], [4], [5]]
scaler = StandardScaler()
standardized = scaler.fit_transform(data)
print(standardized)

from sklearn.preprocessing import StandardScaler

data = [[1], [2], [3], [4], [5]]
scaler = StandardScaler()
standardized = scaler.fit_transform(data)
print(standardized)

Cuándo Normalizar o Estandarizar

Caso	Método recomendado
Quieres los valores en rango [0, 1]	Normalización min–máx
Tienes valores atípicos o distribuciones no uniformes	Estandarización
Modelos sensibles a la escala (k-means, SVM, PCA)	Ambos, según el caso
Modelos basados en árboles (Random Forest, XGBoost)	No necesario

El centrado y escalado de datos no son simples pasos técnicos: son fundamentales para que los algoritmos interpreten correctamente la información. Elegir entre normalización y estandarización dependerá de la naturaleza del conjunto de datos y del modelo que vayas a emplear.

En resumen:

Centrar elimina el sesgo de posición (media ≈ 0).
Escalar elimina el sesgo de magnitud (dispersión comparable).
La normalización fija un rango; la estandarización fija la media y varianza.

Ambas operaciones son pilares del preprocesamiento de datos moderno en ciencia de datos y machine learning.

octubre 29, 2025

Manejo de Datos Faltantes

Uno de los problemas más comunes en cualquier análisis de datos es la presencia de valores faltantes. No importa si trabajas con datos de clientes, de sensores, o de ventas: los huecos están ahí, casi siempre. Y si no los manejas bien, cualquier análisis que hagas puede llevarte a conclusiones incorrectas o sesgadas.

Pero no te preocupes. Hay estrategias simples y efectivas para detectar, entender y manejar los datos faltantes de manera profesional. En este artículo aprenderás cómo hacerlo paso a paso.

¿Qué son los datos faltantes?

Decimos que hay datos faltantes cuando una variable no tiene valor para una observación determinada. En la práctica, suelen aparecer como NULL, NaN, #N/A o simplemente celdas vacías.

Por ejemplo, imagina que trabajas con los datos de ventas de varias tiendas de ropa y te encuentras con esto:

StoreID	ProductID	ProductColor	Price
A	1	Red	20
B	3	Blue	18
C	1	NULL	20
C	2	NULL	25

Aquí, las tiendas del grupo C no informaron el color del producto. Si no corriges este problema, cualquier análisis sobre los colores más vendidos será inexacto.

Por qué es importante gestionar los datos faltantes

Tener valores ausentes no solo significa un dataset incompleto. También puede distorsionar tus conclusiones. Por ejemplo, si intentas calcular la media de precios o la correlación entre variables sin tratarlos, obtendrás resultados falsos o sin sentido.

Desde el punto de vista estadístico, manejar los datos faltantes aumenta el poder estadístico (la capacidad de detectar patrones reales en los datos) y reduce el riesgo de errores de interpretación.

En resumen:

Mejora la precisión del análisis.
Evita conclusiones engañosas.
Permite conservar el tamaño de la muestra y su representatividad.

Por qué faltan los datos

Existen varias causas típicas:

Errores o causas sistemáticas: El dato nunca se registró. Puede deberse a un descuido humano o a un fallo técnico.
Privacidad o consentimiento: A veces los usuarios optan por no proporcionar ciertos datos, como su correo electrónico o edad.
Pérdida o corrupción de información: Errores de conexión, fallos en la base de datos o interrupciones durante la carga de información pueden causar huecos.

Tipos de datos faltantes

No todos los datos faltantes son iguales. En ciencia de datos se clasifican en cuatro tipos:

Estructuralmente faltantes (Expected Missing): Es normal que falten: por ejemplo, si alguien responde “no tengo asma”, es lógico que los campos sobre inhaladores estén vacíos.
MCAR (Missing Completely at Random): Faltan al azar, sin ningún patrón. Es el caso ideal, aunque poco frecuente.
MAR (Missing at Random): Faltan por alguna razón, pero dentro de ciertos grupos.
Ejemplo: personas con un IMC alto tienden a no reportar su peso.
MNAR (Missing Not at Random): Faltan por una razón directamente relacionada con el valor faltante. Por ejemplo, si los pacientes con presión arterial muy alta evitan hacerse la medición.

Cómo identificar los datos faltantes

Explora pequeñas muestras de datos:
Visualiza las primeras o últimas filas para ver si hay celdas vacías.
Usa funciones de resumen:
En Python, data.isnull().sum() te mostrará cuántos valores faltan por columna.
Compara recuentos:
Si una columna tiene menos registros válidos que otras, probablemente tenga valores ausentes.

Estrategias para manejar los datos faltantes

1. Eliminación (borrar los datos faltantes)

A veces la mejor solución es simplemente eliminar filas o columnas con datos faltantes.
Pero cuidado: no siempre es seguro.

Cuándo eliminar

Cuando los datos faltantes son pocos (menos del 5% del total).
Cuando los valores faltan al azar (MCAR o MAR).
Cuando los datos faltantes no afectan directamente al análisis principal.

Cuándo no eliminar

Si perderías demasiadas observaciones (más del 20%).
Si los datos faltan por una razón estructural o sistemática.

Tipos de eliminación

Eliminación por lista:
Borra toda la fila con cualquier dato faltante.

data.dropna(inplace=True)

data.dropna(inplace=True)

Eliminación por pares:
Solo elimina las filas que afecten a las variables que estás analizando.

data.dropna(subset=['Height', 'Education'], inplace=True)

data.dropna(subset=['Height', 'Education'], inplace=True)

Eliminación de variables:
Si a una columna le falta más del 60% de los datos, puede ser mejor eliminarla por completo.

2. Imputación (rellenar los huecos)

Cuando los datos son valiosos y no conviene eliminarlos, podemos reemplazar los valores faltantes por otros estimados.

Algunas estrategias:

Media, mediana o moda

Reemplaza los valores faltantes por el promedio, la mediana o el valor más común.

data['Age'].fillna(data['Age'].mean(), inplace=True)

data['Age'].fillna(data['Age'].mean(), inplace=True)

Forward Fill (LOCF)

Usa el valor anterior para completar el actual (útil en series temporales).

data['Value'].ffill(inplace=True)

data['Value'].ffill(inplace=True)

Interpolación

Calcula un valor intermedio entre los datos vecinos:

data['Temperature'].interpolate(inplace=True)

data['Temperature'].interpolate(inplace=True)

Modelos predictivos

Utiliza algoritmos de Machine Learning (como regresión lineal o KNN) para estimar los valores faltantes en base a otras variables.

Caso especial: datos faltantes en series temporales

Cuando los datos se registran en el tiempo (como precios bursátiles o sensores IoT), los huecos pueden rellenarse con métodos temporales, como:

LOCF (Last Observation Carried Forward)
Interpolación lineal
Suavizado exponencial

Por ejemplo:

Timestamp	Value
08:01	12
08:02	13
08:03	Falta
08:04	16

Podemos reemplazar el valor faltante (08:03) con el anterior (13) o con un promedio (14.5).

Recomendaciones finales

Entiende el contexto de tus datos.
No todos los huecos significan error.
Documenta tus decisiones.
Explica por qué imputaste, eliminaste o dejaste un valor vacío.
Evalúa el impacto.
Comprueba cómo cambian tus resultados antes y después del tratamiento.

En resumen

Estrategia	Cuándo usarla	Riesgo
Eliminación por lista	Pocos valores faltantes	Pérdida de datos
Eliminación por pares	Solo faltan algunas variables	Mínimo
Imputación media/mediana	Datos numéricos simples	Sesgo posible
LOCF o Interpolación	Series temporales	Puede suavizar en exceso
Modelos predictivos	Datos complejos o correlacionados	Mayor esfuerzo computacional

Manejar los datos faltantes no se trata solo de “rellenar huecos”, sino de preservar la integridad del análisis. Un buen tratamiento puede marcar la diferencia entre un modelo fiable y uno que toma decisiones erróneas. En análisis de datos, la ausencia también habla: cada valor faltante tiene una historia detrás, y entenderla es parte del trabajo de un buen analista.

octubre 29, 2025

Transformación de Datos
Uno de los pasos fundamentales del Análisis Exploratorio de Datos (EDA) es el Data Wrangling. La transformación de datos es un conjunto de técnicas utilizadas para convertir datos de un formato o estructura a otro, con el fin de hacerlos más útiles, consistentes y listos para el análisis.

En el proceso de preparación de datos, ciertas tareas suelen realizarse en un orden específico para maximizar la eficiencia y efectividad del flujo de trabajo. Un flujo de trabajo típico de limpieza y preparación de datos seria:
1. Key restructuring (reestructuración de claves)
2. Data validation (validación de datos)
3. Data cleaning (limpieza de datos)
4. Data deduplication (deduplicación de datos)
5. Data derivation (derivación de datos)
6. Format revisioning (revisión de formato)
7. Data aggregation (agregación de datos)
8. Data filtering (filtrado de datos)
9. Data joining (unión de datos)
10. Data integration (integración de datos)
Este flujo de trabajo es iterativo y puede requerir ajustes según las necesidades específicas del proyecto y la naturaleza de los datos. Además, algunos pasos pueden superponerse o requerir revisiones cuando surgen nuevos datos o cambios en los requisitos del análisis.

La razón principal para transformar los datos es obtener una representación más útil y compatible con otros conjuntos de datos. Además, la transformación adecuada favorece la interoperabilidad dentro de un sistema al seguir una estructura y formato común.

Key Restructuring

En el ámbito de la ciencia de datos, “Key Restructuring” se refiere a la reorganización o transformación de las claves en un conjunto de datos.
Las “claves” suelen ser identificadores únicos o combinaciones de campos que sirven para relacionar registros entre sí.

Renombrar Claves
```
df.rename(columns={'old_name': 'new_name'}, inplace=True)
```
Reasignar Valores de Clave
```
df['key_column'] = df['key_column'].map(lambda x: 'new_value' if condition else x)
```
Crear Claves Compuestas
```
df['composite_key'] = df['key_part1'].astype(str) + '-' + df['key_part2'].astype(str)
```
Eliminar Claves Innecesarias
```
df.drop(columns=['unnecessary_key'], inplace=True)
```
Asegurar la Unicidad
```
if df['key_column'].is_unique:
    print("Las claves son únicas.")
else:
    df.drop_duplicates(subset=['key_column'], inplace=True)
```
Reindexación Basada en Claves
```
df.set_index('key_column', inplace=True)
```
Data Validation

La validación de datos consiste en verificar si los datos cumplen con un conjunto de reglas o normas antes de ser procesados o analizados. Es una etapa crítica, ya que trabajar con datos erróneos o mal formateados puede llevar a conclusiones incorrectas y resultados poco confiables.

Técnicas comunes en Pandas
- Verificación de tipos de datos
```
df.dtypes
df['column'] = df['column'].astype(float)
```
- Aplicar condiciones de validación
```
assert (df['column'] > 0).all()
```
- Validación de texto con expresiones regulares
```
df['text_column'].str.match(r'^\w+$')
```
- Detección de valores nulos
```
df.isnull().sum()
df.dropna(subset=['column'], inplace=True)
```
- Valores únicos y duplicados
```
df['column'].is_unique
df.drop_duplicates(subset=['column'], inplace=True)
```
- Rangos de valores
```
df[(df['column'] >= min_value) & (df['column'] <= max_value)]
```
- Validación de categorías
```
allowed = {'cat1', 'cat2'}
df['col'].isin(allowed)
```
- Validación cruzada entre columnas
```
df.apply(lambda row: row['col1'] < row['col2'], axis=1)
```
La validación debe ser continua, adaptándose a las reglas del negocio y al tipo de análisis o modelo que se esté desarrollando.

Data Cleaning

La limpieza de datos busca detectar y corregir (o eliminar) registros corruptos, incompletos o inconsistentes, tratando valores faltantes y estandarizando formatos.

Tareas comunes:
- Detectar valores faltantes
```
df.isnull()
```
- Eliminar valores faltantes
```
df.dropna()
```
- Rellenar valores faltantes
```
df.fillna(method='ffill')
```
- Conversión de tipos
```
df.astype({'col1': 'int32'})
```
- Normalización de texto
```
df['col'] = df['col'].str.strip().str.lower()
```
- Manejo de outliers
  Filtrar o imputar valores extremos según percentiles o desviaciones estándar.
- Manejo de fechas
```
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')
```
- Guardar los datos limpios
```
df.to_csv('clean_data.csv', index=False)
```
Una limpieza adecuada es la base para cualquier análisis o modelado confiable.

Data Deduplication

La deduplicación de datos busca identificar y eliminar registros repetidos dentro de un conjunto de datos. Esto mejora la precisión y evita sesgos en el análisis.

Métodos en Pandas:
```
df.drop_duplicates()
df.duplicated()
```
Se puede usar el argumento subset para definir columnas específicas y keep para decidir qué duplicado conservar. Antes de eliminar duplicados, conviene analizar su origen y asegurarse de no eliminar información valiosa.

Data Derivation

La derivación de datos consiste en crear nuevas variables o columnas a partir de datos existentes.

Ejemplos comunes:
- Cálculo de estadísticas
```
df['avg'] = df['value'].mean()
```
- Transformaciones matemáticas
```
df['normalized'] = (df['x'] - df['x'].mean()) / df['x'].std()
```
- Descomposición de fechas
```
df['year'] = df['date'].dt.year
```
- One-hot encoding
```
pd.get_dummies(df['category'])
```
- Binning
```
pd.cut(df['var'], bins=3)
```
- Cálculo de diferencias
```
df['diff'] = df['value'].diff()
```
Derivar datos correctamente permite enriquecer el conjunto de análisis y mejorar el rendimiento de los modelos.

Format Revisioning

La revisión de formato implica convertir datos a tipos o estructuras adecuados para el análisis o interoperabilidad.
- Conversión de tipos
```
df['col'] = pd.to_numeric(df['col'], errors='coerce')
```
- Normalización de texto
```
df['texto'] = df['texto'].str.lower().str.strip()
```
- Fechas y horas
```
df['fecha'] = pd.to_datetime(df['fecha'])
```
- Conversión a categorías
```
df['cat'] = df['cat'].astype('category')
```
- Exportar a otros formatos
```
df.to_excel('datos.xlsx', index=False)
df.to_sql('tabla', con=conexion)
```
Data Aggregation

La agregación de datos permite resumir información, extraer métricas y generar resúmenes útiles.

Ejemplos:
```
df.groupby('col')['ventas'].sum()
df.groupby('col').agg({'ventas': ['mean', 'std']})
df.pivot_table(values='ventas', index='mes', columns='region')
pd.crosstab(df['categoria'], df['region'])
df['ventas'].rolling(window=3).mean()
df.resample('M')['ventas'].sum()
```
La agregación facilita el análisis exploratorio y la generación de indicadores clave (KPIs).

Data Filtering

El filtrado de datos consiste en seleccionar subconjuntos relevantes según condiciones o criterios específicos.

Ejemplos:
```
df[df['edad'] > 30]
df.query('columna > 100')
df[df['pais'].isin(['España', 'Chile'])]
df[(df['ventas'] > 500) & (df['region'] == 'Norte')]
```
También puedes aplicar funciones personalizadas:
```
df[df['nombre'].apply(lambda x: 'a' in x)]
```
El filtrado ayuda a centrarse en los datos más relevantes y reduce ruido analítico.

Top – Data Joining

El data joining combina conjuntos de datos mediante claves comunes, similar a las uniones de SQL.

Métodos:
- pd.concat() – concatenar DataFrames (vertical u horizontalmente)
- pd.merge() – unión tipo SQL (inner, left, right, outer)
- df.join() – unión por índice o columna
- merge_asof() y merge_ordered() – uniones temporales o ordenadas
- compare() – detectar diferencias entre DataFrames
Ejemplos:
```
pd.concat([df1, df2], axis=0)
pd.merge(df1, df2, on='id', how='left')
```
La unión de datos es esencial para integrar fuentes diversas y construir un dataset analítico coherente.
octubre 29, 2025

Estructura de un Informe de Análisis de Datos: Guía Práctica y Eficaz

Un informe de análisis de datos no es un artículo académico, ensayo ni informe de laboratorio. Es una conversación organizada con tu cliente o colaborador, con vida interna (memo extendido) y externa (para supervisores).

Características Clave

Fácil de ojear → Audiencias diferentes encuentran lo que necesitan rápido.
Redacción invisible → El lector recuerda el contenido, no el estilo.

Evita:

Prosa florída o demasiado casual.
Errores gramaticales.
Contexto inadecuado.
Enfocarse en proceso (salvo en apéndice).
Detalles técnicos innecesarios en el cuerpo.

Estructura Básica

Sección	Contenido esencial
Introducción	Resumen del estudio, datos, contexto, grandes preguntas, conclusiones clave y esquema del informe.
Cuerpo	Análisis principal con evidencia (tablas/gráficos).
Conclusión/Discusión	Repite preguntas + conclusiones. Añade observaciones y preguntas futuras.
Apéndice	Detalles técnicos, tablas extras, código, salidas.

Audiencias y Cómo Escribir para Cada Una

Audiencia	Qué lee	Cómo facilitarles la vida
Principal (cliente/colaborador)	Introducción + Conclusión + ojea Cuerpo	Organiza como una agenda de conversación: de general a específico o por importancia. Incluye evidencia clave en Cuerpo, detalles en Apéndice.
Ejecutivo	Solo Introducción y Conclusión	Deja “titulares” claros en ambas secciones.
Supervisor técnico	Cuerpo + Apéndice	Referencias cruzadas específicas. Texto explicativo en Apéndice (cómo y por qué hiciste cada análisis).

Organización del Cuerpo: 2 Formatos Efectivos

1. Tradicional (familiar en psicología)

Datos
Métodos
Análisis
Resultados

Riesgo:

“Métodos” suena estéril sin resultados → fusiona con Análisis.

2. Orientado a preguntas (recomendado)

Análisis
- Tasa de Éxito
Métodos
Análisis
Conclusiones
- Tiempo hasta Recaída
- Efecto del Género

Ventajas:

Sigue orden de la Introducción.
Cada subsección es autónoma.
Fácil de ojear.

Reglas de Oro para el Cuerpo

1–2 tablas/gráficos por pregunta → captan atención.
Evita exceso gráfico → rompe flujo → mueve extras al Apéndice.
Texto claro + evidencia visual = comprensión rápida.

Apéndice: El Lugar de los Detalles

Incluye:

Procedimientos estadísticos complejos.
Tablas/salidas detalladas.
Figuras secundarias.
Código comentado (¡con texto explicativo!).

Regla:
Cuerpo → lo justo para convencer.
Apéndice → todo lo necesario para validar.

Introducción: El Gancho Perfecto

Debe incluir (en este orden):

Resumen del estudio y datos.
Contexto o problema.
Grandes preguntas + conclusiones clave.
Esquema del informe.

Conclusión: Cierra con Impacto

Repite preguntas y respuestas.
Añade observaciones nuevas.
Propón preguntas futuras o próximos pasos.

Checklist Final antes de Entregar

[ ] ¿Es fácil ojear para ejecutivos?
[ ] ¿Tiene agenda clara para el cliente?
[ ] ¿Apéndice valida todo para el supervisor?
[ ] ¿Redacción limpia y sin distracciones?
[ ] ¿1–2 visuales por pregunta?
[ ] ¿Referencias cruzadas entre Cuerpo y Apéndice?

Conclusión:
Un buen informe de datos no impresiona por su longitud.
Impresiona porque tu cliente lo entiende, tu jefe lo aprueba y tu ejecutivo lo usa para decidir.

Estructura simple. Audiencia clara. Contenido que habla.
Eso es todo.

octubre 29, 2025

Análisis de Audiencia en la Redacción Técnica: Guía Esencial

La audiencia de un documento técnico es el lector o lectores previstos. Para los redactores técnicos, esta es la consideración clave al planificar, redactar y revisar. Se trata de adaptar la escritura a las necesidades, intereses y antecedentes del lector.

El principio es simple: habla para que te entiendan. No expliques cohetes a un niño de seis años. Parece obvio, pero la falta de análisis de audiencia es la raíz de la mayoría de los problemas en documentos técnicos, especialmente en instrucciones.

Herramientas Prácticas

Planificador de audiencias: Responde preguntas detalladas y envíatelo por email (opcional: a tu instructor).
Planificador de situaciones: Define el contexto en que tu audiencia usa el documento.

Tipos de Audiencias

Tipo	Descripción
Expertos	Conocen teoría y producto al detalle. Diseñan, prueban. Títulos avanzados. Desafío: comunicarse con técnicos y ejecutivos.
Técnicos	Construyen, operan, mantienen, reparan. Conocimiento práctico y técnico.
Ejecutivos	Toman decisiones comerciales, legales, políticas. Poco conocimiento técnico. Deciden si producir, implementar, financiar.
No especialistas	Mínimo conocimiento técnico. Interés práctico o curiosidad. Ej: votar en elecciones, aprender sin motivo específico.

Análisis Detallado de la Audiencia

Más allá del tipo, evalúa:

Antecedentes (conocimiento, experiencia, capacitación)

¿Cuánto saben tus lectores?
Ejemplo: Guía de software en Windows → ¿incluyes basics de Windows?
- No: Frustra al usuario.
- Sí: Aumenta páginas y costo.
  → Equilibra según el tamaño del segmento que lo necesita.

Necesidades e intereses

¿Qué esperan del documento?
Ej: Manual de smartphone → pasos claros.
Informe de calentamiento global para inmobiliarios → ¿qué quieren (y no quieren) leer?

Diferentes culturas

Formatos de fecha, hora, moneda varían.
Evita humor local (“dar un jonrón”). → Recursos:
- Capítulo 6: Escritura para lectores internacionales (Texas A&M).
- Lista de guías de estilo en Wikipedia.

Otras características demográficas

Edad, género, residencia, preferencias políticas, etc.

Complicaciones Comunes

Audiencias mixtas: Técnicos + ejecutivos →
- Opción 1: Todo comprensible para todos (difícil).
- Opción 2: Secciones por audiencia + títulos claros para navegar.
Variabilidad amplia: En una misma categoría →
- Escribir al mínimo común denominador → documento tedioso.
- Solución:
  - Apuntar a la mayoría.
  - Info extra en apéndices o referencias cruzadas.

Ejemplo de Descripción de Audiencia (para curso)

Nota al instructor: Instrucciones para usuarios que optimizan cálculos en Excel con macros. Saben ingresar datos, usan Office Suite, están cómodos con Windows y aritmética básica para verificar errores.

Adaptación Práctica: 16 Controles para Conectar con tu Audiencia

(Enfocados en no especialistas, pero aplicables a todos)

Añade info clave → pasos, antecedentes, definiciones.
Omite lo innecesario → evita confusión.
Ajusta nivel técnico → no hables a expertos si tu lector es técnico.
Incluye ejemplos → analogías potentes.
Adapta ejemplos → caseros para no expertos, técnicos para especialistas.
Reorganiza contenido → fondo donde se necesita.
Fuerza transiciones → “por lo tanto”, “sin embargo”, repite palabras clave.
Escribe introducciones fuertes → panorama general del documento y secciones.
Usa oraciones temáticas → guía al lector como un mapa.
Estilo directo → voz imperativa (“haz clic”), verbos activos, “tú”.
Oraciones 15–25 palabras → evita >30.
Claridad y economía → reduce 20% del texto en revisión.
Más gráficos simples → para no especialistas.
Párrafos cortos → 6–8 líneas máx.
Referencias cruzadas → “ver sección X”.
Títulos, listas, tipografía → márgenes amplios, fuente legible, interlineado.

Situación de la Audiencia: El Contexto lo es Todo

No basta con saber quién. Pregunta: ¿En qué situación usa mi audiencia este documento?

Ejemplos:

Situación	Objetivo	Audiencia
Resumen de novedades	Decisión informada	Ejecutivos, no especialistas
Guía de tareas	Ejecución eficiente	Técnicos
Promoción de interés	Persuasión	Público general, decisores
Resumen para estudiantes	Aprendizaje introductorio	Estudiantes no especializados
Resumen para clientes	Asesoría	Consejeros
Resumen para ciudadanos	Debate informado	Legisladores, público

octubre 29, 2025

Cómo redactar informes de análisis de datos.

En un análisis estadístico, normalmente se comienza considerando las características de la población sobre la cual se quieren hacer inferencias. De manera similar, cuando comienzas a escribir un informe sobre un análisis, generalmente comienzas considerando las características de la audiencia con la que deseas comunicarte.

Debes pensar en el quién, qué, por qué, dónde, cuándo y cómo de las personas clave que leerán tu informe.

¿Quién leerá tu informe?

La audiencia a menudo se define por el rol que desempeña el lector en relación con el informe:

Tomadores de decisiones: Usarán el informe para actuar.
Partes interesadas: Aprenderán nueva información.
Revisores: Lo criticarán en base a lo que ya saben.
Interesados generales: Buscan contexto o inspiración.

Algunos informes son leídos por una sola persona, pero la mayoría por muchas. Pueden existir niveles de participación: primarios, secundarios y terciarios.

Consejo clave:

No puedes complacer a todos. Concéntrate primero en las personas más importantes para recibir tu mensaje, y en segundo lugar en el grupo más amplio.

¿Qué saben tus lectores?

Una vez definido a quién te diriges, comprende sus características. La más importante para un redactor técnico es su nivel de comprensión del tema y de las técnicas estadísticas.

Puedes ajustar cómo presentas la información estadística. Aquí tienes un mapa de audiencias comunes:

Tipo de lector	Características	Recomendaciones
Matefobias	Temen a los números, pero escuchan conceptos	Evita jerga, fórmulas y porcentajes. Usa “aproximadamente la mitad” en lugar de “48.7%”.
Pasantes	Entienden poco y tienen bajo interés	No te preocupes: no leerán más allá del resumen. Hazlo conciso y resalta el hallazgo clave.
Turistas	Entienden algo y están interesados	Sé amable. Usa jerga solo si la defines. Prefiere gráficos simples (barras, circulares). Redondea valores.
Perros calientes	Creen saber más de lo que saben	Usa jerga y fórmulas, pero explícalas claramente. Guíalos para evitar conclusiones erróneas.
Asociados	Otros analistas con jerga básica	Todo vale si lo explicas bien.
Colegas	Expertos en el tema y técnicas	Todo vale. Sé técnico, preciso y directo.

Estas características te orientan sobre la extensión, tono y estilo del informe.

¿Por qué leerán tu informe?

Sé honesto:

¿Por qué alguien estaría interesado en leer tu informe?

Pregúntate:

¿Qué harán con tus hallazgos?
¿Se informarán? ¿Tomarán decisiones? ¿Actuarán?
¿Es algo crítico para ellos o solo un trámite?

El nivel de interés define cuánto esfuerzo debes invertir en hacerlo claro, atractivo y accionable.

¿Dónde se leerá tu informe?

Considera el alcance y contexto:

¿Es para un grupo interno (organización) o público general?
¿Va dirigido a la alta dirección (de arriba hacia abajo) o a equipos operativos (de abajo hacia arriba)?
¿Hay preocupaciones de seguridad o confidencialidad?

Esto afecta el lenguaje, el nivel de detalle y las medidas de protección (contraseñas, marcas de agua, etc.).

¿Cuándo lo necesitan?

El tiempo es un factor crítico:

¿Cuándo debe estar listo?
¿Quién lo revisará y cuánto tardará?
¿Los plazos son flexibles o inamovibles?
¿Tienes tiempo para:
Pensar el mensaje?
Hacer análisis adicionales?
Editar y pulir?

Regla de oro (que todos rompemos, pero no deberíamos): Nunca envíes un borrador para revisión que no sea tu obra maestra completa y editada.

¿Cómo debe presentarse el informe?

Finalmente, piensa en cómo maximizar el impacto para tu audiencia. Aquí van cinco consideraciones clave:

1. Paquete

¿Cómo se entregará?

Carta breve
Informe completo
Entrada de blog
Artículo profesional
Anexo en otro documento

2. Formato

¿Digital o impreso?
¿PDF, Word, web?
¿Editable o protegido?
¿Con contraseña?

3. Apariencia

¿Blanco y negro o a color?
¿Muchos gráficos o mucho texto?
¿Convencional o visualmente impactante?
¿Incluye mapas, desplegables, inserciones grandes?

4. Artículos especiales

¿Entregarás datos, scripts, código o resultados adicionales?
¿Crearás una presentación?
¿Se usarán tus gráficos en tribunales o eventos públicos?

5. Accesibilidad

¿Debes cumplir con la Sección 508 (EE.UU.) para accesibilidad?
¿Tus gráficos son legibles para personas con daltonismo?
¿Usas títulos claros, tablas bien etiquetadas, alt text en imágenes?

Conclusión:

No necesitas responder todas estas preguntas en detalle. Muchas solo requieren unos segundos de reflexión. Pero si analizas estas dimensiones —quién, qué, por qué, dónde, cuándo y cómo— tendrás una idea mucho más clara de para quién escribes
Y cómo debes escribirlo

octubre 29, 2025

Sustitución hacia atrás e inversión de Matrices
El backsolving es un método para resolver sistemas de ecuaciones lineales una vez que ya hemos reducido el sistema a forma triangular superior mediante eliminación gaussiana (o cualquier otra técnica de factorización como LU).

Trabajamos el mismo problema del articulo anterior:

$$ M = \begin{bmatrix} 3 & 6 & 2 \\ 10 & 3 & 8 \\ 1 & 7 & 5 \end{bmatrix} , p = \begin{bmatrix} p_1 \\ p_2 \\ p_3 \end{bmatrix}, c = \begin{bmatrix} 34 \\ 69 \\ 48 \end{bmatrix} $$

Queremos resolver los precios $ (p) $ de cada producto. En este caso utilizaremos eliminación gaussiana y luego sustitución hacia atrás — eso es, reducir el sistema a triangular superior y luego encontrar las incógnitas empezando por la última.

Eliminación gaussiana (reducción hacia triangular superior)

Escribimos el sistema en sus ecuaciones explícitas (producto fila por columna):

$$ \begin{cases} 3p_1 + 6p_2 + 2p_3 = 34 \\ 10p_1 + 3p_2 + 8p_3 = 69 \\ 1p_1 + 7p_2 + 5p_3 = 48 \end{cases}$$

Paso 1 — usar la primera ecuación para eliminar $p_1$ de las filas 2 y 3.

Despejamos $p_1$ (temporalmente) o eliminamos directamente:

Multiplicador para la fila 2: $\frac{10}{3}=2$.
Hacemos $R_2 \leftarrow R_2 – 2R_1$:
- Columna 1: $10 – 2\cdot 3 = 0$.
- Columna 2: $3 – 2\cdot 6 = 3 – 12 = -9$.
Multiplicador para la fila 3: $\frac{1}{3}$.
Hacemos $R_3 \leftarrow R_3 – \frac{1}{3}R_1$.

Después de eliminar $p_1$ en filas 2 y 3 (operaciones sobre las filas):

$$\begin{pmatrix}3 & 6 & 2 & | & 34\\0 & -17 & 4 & | & 1\\0 & \frac{4}{3} & \frac{13}{3} & | & \frac{76}{3} \end{pmatrix}$$

Nota: la fila 2 quedó con coeficiente (-17) en la columna de $p_2$. La fila 3 tiene fracciones — eso es normal en eliminación.

Paso 2 — usar la fila 2 para eliminar la componente $p_2$ de la fila 3.

Multiplicador para $R_3$: $f=\frac{\frac{4}{3}}{-17}=-\frac{4}{51}$.
Hacemos $R_3 \leftarrow R_3 – f R_2 = R_3 + \frac{4}{51}R_2$.

Al realizar esa operación la segunda columna de $R_3$ queda 0 y obtenemos una ecuación sólo en $p_3$:

$$\begin{pmatrix}3 & 6 & 2 & | & 34 \\ 0 & -17 & 4 & | & 1 \\ 0 & 0 & \frac{241}{51} & | & \frac{1296}{51} \end{pmatrix}$$

Paso 3 — despejar $p_3$ y luego usar sustitución hacia atrás.

De la tercera fila:

$$\frac{241}{51},p_3 = \frac{1296}{51} \quad\Rightarrow\quad p_3 = \frac{1296}{241}$$

Sustituyendo $p_3$ en la segunda fila:

$$-17,p_2 + 4,p_3 = 1 \quad\Rightarrow\quad p_2 = \frac{1 – 4p_3}{-17}$$

Sustituyendo el valor numérico de $p_3$ (o directamente resolviendo con las fracciones) se obtiene $p_2=3$.

Finalmente sustituimos $p_2$ y $p_3$ en la primera ecuación para obtener (p_1), que da (p_1=2).

Conclusión del método manual (eliminación + sustitución):

$$\mathbf p = \begin{pmatrix}2 \\ 3 \\ 5\end{pmatrix}$$

¿Qué significa calcular la inversa $M^{-1}$ y cómo se obtiene con matriz aumentada?

Otra forma más “directa” (y que explica el porqué de la eliminación) es calcular la inversa de $M$. Si $M$ es invertible entonces

$$\mathbf p = M^{-1}\mathbf c$$

Para encontrar $M^{-1}$ se construye la matriz aumentada $[,M \mid I,]$ y se aplican operaciones elementales por filas hasta transformar el lado izquierdo en la identidad; entonces el lado derecho habrá quedado como $M^{-1}$.

Verificaciones numéricas y redondeo

En la práctica, cuando calculas $M^{-1}M$ en ordenador verás que los elementos fuera de la diagonal no son exactamente cero sino números muy pequeños (por ejemplo $-5\times 10^{-17})$. Eso es error numérico de punto flotante. Si redondeas (por ejemplo a 10 decimales) obtendrás la matriz identidad exacta en la presentación.

Resumen conceptual
- Eliminación gaussiana: reduce el sistema a triangular superior (eliminación hacia adelante) y luego despeja las variables (sustitución hacia atrás).
- Inversa por matriz aumentada: hacer operaciones elementales sobre $[M\mid I]$ hasta convertir $M$ en $I$; lo que quede a la derecha será $M^{-1}$.
- Comprobación: puedes verificar que $M^{-1}\mathbf c = \mathbf p$ y $M^{-1}M = I$ (hasta errores numéricos muy pequeños).
Código Python
import numpy as np # Definición de la matriz y vectores (el sistema del ejemplo) M = np.array([[3, 6, 2], [10, 3, 8], [1, 7, 5]], dtype=float) c = np.array([34, 69, 48], dtype=float) # 1) Resolver el sistema M p = c p = np.linalg.solve(M, c) print("Solución (np.linalg.solve):", p) # 2) Calcular la inversa de M M_inv = np.linalg.inv(M) print("\nInversa M^{-1}:\n", M_inv) # 3) Verificar que M^{-1} * c = p p_from_inv = M_inv @ c print("\nM^{-1} @ c =", p_from_inv) # 4) Verificar que M_inv @ M ≈ I (mostramos la matriz y una versión redondeada) I_approx = M_inv @ M print("\nM^{-1} @ M (aprox):\n", I_approx) print("\nM^{-1} @ M (redondeado a 10 decimales):\n", np.round(I_approx, 10))
```
import numpy as np

# Definición de la matriz y vectores (el sistema del ejemplo)
M = np.array([[3, 6, 2],
              [10, 3, 8],
              [1, 7, 5]], dtype=float)

c = np.array([34, 69, 48], dtype=float)

# 1) Resolver el sistema M p = c
p = np.linalg.solve(M, c)
print("Solución (np.linalg.solve):", p)

# 2) Calcular la inversa de M
M_inv = np.linalg.inv(M)
print("\nInversa M^{-1}:\n", M_inv)

# 3) Verificar que M^{-1} * c = p
p_from_inv = M_inv @ c
print("\nM^{-1} @ c =", p_from_inv)

# 4) Verificar que M_inv @ M ≈ I (mostramos la matriz y una versión redondeada)
I_approx = M_inv @ M
print("\nM^{-1} @ M (aprox):\n", I_approx)
print("\nM^{-1} @ M (redondeado a 10 decimales):\n", np.round(I_approx, 10))
```
Salida:
Solución (np.linalg.solve): [2. 3. 5.] Inversa M^{-1}: [[ 0.17012448 0.06639004 -0.17427386] [ 0.17427386 -0.05394191 0.01659751] [-0.2780083 0.06224066 0.21161826]] M^{-1} @ c = [2. 3. 5.] M^{-1} @ M (aprox): [[ 1.00000000e+00 0.00000000e+00 0.00000000e+00] [-1.56125113e-16 1.00000000e+00 -5.55111512e-17] [ 5.55111512e-17 0.00000000e+00 1.00000000e+00]] M^{-1} @ M (redondeado a 10 decimales): [[ 1. 0. 0.] [-0. 1. -0.] [ 0. 0. 1.]]
```
Solución (np.linalg.solve): [2. 3. 5.]

Inversa M^{-1}:
 [[ 0.17012448  0.06639004 -0.17427386]
 [ 0.17427386 -0.05394191  0.01659751]
 [-0.2780083   0.06224066  0.21161826]]

M^{-1} @ c = [2. 3. 5.]

M^{-1} @ M (aprox):
 [[ 1.00000000e+00  0.00000000e+00  0.00000000e+00]
 [-1.56125113e-16  1.00000000e+00 -5.55111512e-17]
 [ 5.55111512e-17  0.00000000e+00  1.00000000e+00]]

M^{-1} @ M (redondeado a 10 decimales):
 [[ 1.  0.  0.]
 [-0.  1. -0.]
 [ 0.  0.  1.]]
```
Qué observar al ejecutar:
- p debe salir como [2. 3. 5.].
- M_inv @ c debe coincidir con p (igual numéricamente, dentro de tolerancias de punto flotante).
- M_inv @ M será numéricamente la identidad; si ves valores muy pequeños fuera de la diagonal, es normal: redondea para comprobar que esos valores son efectivamente cero dentro de la precisión de la máquina.
Resumen

La eliminación y la inversa son dos caras de la misma moneda: la primera resuelve un sistema concreto, la segunda construye la “función inversa” que, aplicada a cualquier vector de costes, devolvería los precios.

En aplicaciones (ciencia de datos, econometría, ingeniería), normalmente no calculamos la inversa si solo queremos resolver un sistema: usamos solve (algoritmos de factorización) por razones de estabilidad numérica y eficiencia. Sin embargo, obtener la inversa es útil para entender conceptualmente la transformada inversa y para comprobaciones.
octubre 27, 2025
Sistemas de Ecuaciones Lineales
Resolviendo problemas reales.

En artículos anteriores vimos operaciones sobre vectores y matrices desde la perspectiva matemática. Vamos a ver cómo esas mismas operaciones pueden resolver problemas reales, como descubrir cuánto cuesta cada producto de un supermercado.

Escenario

Volvemos a nuestro supermercado de frutas. Imaginemos que tenemos tres personas:
Bob, Alice y Tim, que han ido al supermercado y compraron manzanas, naranjas y peras. Podemos representar sus compras en una matriz $M$:

$$M = \begin{bmatrix} 3 & 6 & 2 \\ 10 & 3 & 8 \\ 1 & 7 & 5 \end{bmatrix}$$

Cada fila representa una persona, y cada columna representa un producto:

Persona Manzanas Naranjas Peras
Bob 3 6 2
Alice 10 3 8
Tim 1 7 5

El coste total

Sabemos cuánto pagó cada persona:

$$C =\begin{bmatrix} 34 \\ 69 \\ 48 \end{bmatrix}$$

Y queremos averiguar cuánto cuesta cada producto. Presentemos los importes que gasto cada uno en un vector que llamamos $ P $ , vector de precios:

$$P = \begin{bmatrix} p_1 \\ p_2 \\ p_3 \end{bmatrix} $$

Donde:
- $p_1$ –> precio de la manzana
- $p_2$ –> precio de la naranja
- $p_3$ –> precio de la pera
Sabemos que:

$$M \cdot P = C$$

o, dicho en palabras: la cantidad comprada multiplicada por el precio unitario da el coste total.

Escribiendo las ecuaciones

Multiplicar la matriz $M$ por el vector $P$ nos da tres ecuaciones:

$$ \begin{cases} 3p_1 + 6p_2 + 2p_3 = 34 \\ 10p_1 + 3p_2 + 8p_3 = 69 \\ 1p_1 + 7p_2 + 5p_3 = 48 \end{cases}$$

Esto es un sistema de ecuaciones lineales con tres incógnitas: $ p_1, p_2, p_3 $. El sistema de ecuaciones en formato matricial:

$$ \begin{bmatrix} 3 & 6 & 2 \\ 10 & 3 & 8 \\ 1 & 7 & 5 \end{bmatrix} \cdot \begin{bmatrix} p_1 \\ p_2 \\ p_3 \end{bmatrix} = \begin{bmatrix} 34 \\ 69 \\ 48 \end{bmatrix} $$

Recordando, tenemos aqui:
- Matriz de coeficientes: contiene los números que multiplican a las variables (las cantidades de las frutas).
- Vector de incógnitas: las variables que queremos encontrar (precio de las frutas).
- Vector de resultados: los valores en el lado derecho (total de dinero gastado).
Solución

Método de eliminación (Gauss, eliminación hacia adelante con sustitución). Se despeja una variable y se sustituye, reduciendo gradualmente el sistema hasta obtener cada variable.

Paso 1 — despejar p1 de la ecuación (1)

$$ 3p_1 + 6p_2 + 2p_3 = 34$$

$$ p_1 =\frac{34}{3} \, – 2p_2 \, – \frac{2p_3}{3}$$

Paso 2 — sustituir $p_1$ en las ecuaciones (2) y (3)

Sustitución en la ecuación (2):

$$10p_1 + 3p_2 + 8p_3 = 69$$

$$10(\frac{34}{3} – 2p_2 – \frac{2p_3}{3}) + 3p_2 + 8p_3 = 69$$

Multiplicamos todo por 3 para eliminar el denominador:

$$340−60p2−20p3+9p2+24p3 \\ =207$$

Agrupamos términos semejantes:
- Términos en p_2: −60p_2+9p_2=−51p_2
- Términos en p_3: −20p_3+24p_3=4p_3
Queda:

$$340−51p2+4p3=207$$

Pasamos 340 al otro lado y calculamos:

$$−51p2+4p3=207−340$$

$$−51p2+4p3=-133$$

Multiplicamos por −1 (para simplificar signos)(Ecuación A):

$$51p2-4p3=133$$

Sustitución en la ecuación (3):

$$1p_1 + 7p_2 + 5p_3 = 48$$

$$\frac{34}{3} – 2p_2 – \frac{2p_3}{3} + 7p_2 + 5p_3 = 48$$

Multiplicamos por 3:

$$34−6p2−2p3+21p2+15p3=144$$

Agrupamos:
- Términos en $p_2: -6p_2 + 21p_2 = 15p_2$
- Términos en $p_3: -2p_3 + 15p_3 = 13p_3$
Queda:

$$34+15p_2+13p_3=144$$

Pasamos 34 al otro lado (Ecuación B):

$$15p_2+13p_3=144−34=110$$

Ahora hemos reducido el sistema original a dos ecuaciones en $p_2$ y $p_3$:
- (A) $51p_2 – 4p_3 = 133$
- (B) $15p_2 +13p_3 = 110$
Paso 3 — resolver el sistema reducido (A) y (B)

Usamos eliminación. Multiplicamos la ecuación A por 15 y la B por −51 para cancelar $p_2$:
- A * 15: $ 765p_2 – 60p_3 = 1995$
- B * (-51): $ -765p_2 – 663p_3 = -5610$
Sumamos las dos ecuaciones:

$$(765p2−60p3)+(−765p2−663p3)\\=1995−5610$$

Se cancelan los $p_2$ Queda:

$$−723p3=−3615$$

Despejamos $p_3$:

$$p_3 = \frac{-3615}{-723} = \frac{3615}{723} = 5$$

Ahora sustituimos $p_3 = 5$ en la ecuación B:

$$15p_2+13 \cdot 5=110$$

$$15p_2+65 =110$$

$$15p_2 =45$$

$$p_2 =3$$

Por último, calculamos $p_1$ usando la fórmula que obtuvimos en el Paso 1:

$$p_1 = \frac{34 – 6p_2 – 2p_3}{3}$$

$$p_1 = \frac{34 – 6 \cdot 3 – 2 \cdot 5}{3}$$

$$p_1 = \frac{34 – 18 – 10}{3}$$

$$p_1 = \frac{6}{3} = 2$$

Resultado final: $p_1 = 2, p_2 = 3, p_3 = 5$

Precios
- Manaza: 2$
- Naranja: 3€
- Pera: 5€
Paso 4 — verificación (comprobación directa)

Multiplicamos la matriz por el vector precios para ver si obtenemos los costes:

$$M = \begin{bmatrix} 3 & 6 & 2 \\ 10 & 3 & 8 \\ 1 & 7 & 5 \end{bmatrix}, p = \begin{bmatrix} 2 \\ 3 \\ 5 \end{bmatrix}$$

Producto $Mp$:
- Fila 1: $ 3 \cdot 2 + 6 \cdot 3 + 2 \cdot 5 = 34$
- Fila 2: $ 10 \cdot 2 + 3 \cdot 3 + 8 \cdot 5 = 69$
- Fila 3: $ 1 \cdot 2 + 7 \cdot 3 + 5 \cdot 5 = 48$
Solución con Python

Este código usa numpy.linalg.solve, que aplica internamente eliminación de Gauss con pivotado, y es la forma más eficiente y segura de resolver sistemas lineales A \cdot x = b en Python.
```
import numpy as np

# Matriz de coeficientes
A = np.array([
    [3, 6, 2],
    [10, 3, 8],
    [1, 7, 5]
], dtype=float)

# Vector de resultados
b = np.array([34, 69, 48], dtype=float)

# Resolver el sistema A·x = b
sol = np.linalg.solve(A, b)

# Mostrar resultados
p1, p2, p3 = sol
print(f"p1 = {p1:.2f}, p2 = {p2:.2f}, p3 = {p3:.2f}")
```
Salida:
```
p1 = 2.00, p2 = 3.00, p3 = 5.00
```
octubre 25, 2025

Tipo de Sesgo	Transformación recomendada	Fórmula	Notas
Sesgo positivo (cola a la derecha)	Logarítmica	\( x’ = \log(x) \)	Solo ( x > 0 )
Sesgo positivo (con ceros o negativos)	Yeo-Johnson	—	Admite todo el rango de valores
Sesgo positivo leve	Raíz cuadrada	\(x’ = \sqrt{x}\)	Suaviza sin comprimir demasiado
Sesgo negativo (cola a la izquierda)	Cuadrática	\(x’ = x^2\)	Amplifica valores grandes
Valores con ceros y negativos	Raíz cúbica	\(x’ = x^{1/3} \)	Funciona con ( x < 0 )

Persona	Manzanas	Naranjas	Peras
Bob	3	6	2
Alice	10	3	8
Tim	1	7	5

Categoría: Articulos

¿Qué son los datos sesgados?

¿Por qué importa el sesgo?

Transformación Logarítmica

¿Qué hace exactamente?

Ejemplo en Python

Transformación con Scikit-Learn

Otras transformaciones avanzadas

Buenas prácticas

¿Qué es la Agrupación (Binning) de Datos Numéricos?

¿Por qué agrupar datos?

Ejemplo: Agrupación de edades

Crear contenedores con pandas.cut()

Otras funciones útiles

Combinar (Contraer) variables categóricas

Ejemplo práctico

En Python:

¿Por qué contraer categorías?

En resumen

Centrado de Datos

Escalado de Datos

Normalización Min–Máx

En Python

Desventaja

Estandarización (Z-score)

En Python

Cuándo Normalizar o Estandarizar

¿Qué son los datos faltantes?

Por qué es importante gestionar los datos faltantes

Por qué faltan los datos

Tipos de datos faltantes

Cómo identificar los datos faltantes

Estrategias para manejar los datos faltantes

1. Eliminación (borrar los datos faltantes)

Cuándo eliminar

Cuándo no eliminar

Tipos de eliminación

2. Imputación (rellenar los huecos)

Media, mediana o moda

Forward Fill (LOCF)

Interpolación

Modelos predictivos

Caso especial: datos faltantes en series temporales

Recomendaciones finales

En resumen

Key Restructuring

Data Validation

Técnicas comunes en Pandas

Data Cleaning

Tareas comunes:

Data Deduplication

Métodos en Pandas:

Data Derivation

Ejemplos comunes:

Format Revisioning

Data Aggregation

Ejemplos:

Data Filtering

Ejemplos:

Top – Data Joining

Métodos:

Características Clave

Estructura Básica

Audiencias y Cómo Escribir para Cada Una

Organización del Cuerpo: 2 Formatos Efectivos

1. Tradicional (familiar en psicología)

2. Orientado a preguntas (recomendado)

Reglas de Oro para el Cuerpo

Apéndice: El Lugar de los Detalles

Introducción: El Gancho Perfecto

Conclusión: Cierra con Impacto

Checklist Final antes de Entregar

Herramientas Prácticas

Tipos de Audiencias

Análisis Detallado de la Audiencia

Complicaciones Comunes

Ejemplo de Descripción de Audiencia (para curso)

Adaptación Práctica: 16 Controles para Conectar con tu Audiencia

Situación de la Audiencia: El Contexto lo es Todo

¿Quién leerá tu informe?

Crear contenedores con `pandas.cut()`

Paso 2 — sustituir \(p_1\) en las ecuaciones (2) y (3)