Categoría: Articulos
-
La Paradoja de Simpson: Cuando los Datos Cuentan Historias Contradictorias
En ciencia de datos y estadística, las decisiones que tomamos dependen directamente de cómo analizamos la información. A menudo confiamos en medidas estadísticas como medias, proporciones o correlaciones para sacar conclusiones. Sin embargo, a veces las tendencias cambian drásticamente cuando separamos los datos en grupos o los combinamos. A este fenómeno se le conoce como…
-
Correlación entre Variables Categóricas
En este articulo veremos cómo estudiar la asociación entre dos variables categóricas. Ejemplo: Inventario de Personalidad Narcisista (NPI-40) El Inventario de Personalidad Narcisista (NPI-40) es un cuestionario que evalúa rasgos narcisistas a través de 40 ítems con opciones A o B. Las respuestas se puntúan para determinar el nivel de narcisismo, que puede variar de…
-
Correlación entre Variables Cuantitativas y Categóricas
Cómo evaluar la asociación entre una variable cuantitativa (por ejemplo, una puntuación o precio) y una variable categórica (por ejemplo, tipo de escuela, zona, o profesión). Ejemplo: Datos de Estudiantes Supongamos que tenemos un conjunto de datos de estudiantes de dos escuelas portuguesas. Contiene la siguiente información: Queremos responder: ¿Las puntuaciones de matemáticas (G3) están…
-
Correlación: Cómo Entender la Relación entre Variables
En este articulo se explora la correlación entre diferentes factores y se estima hasta qué punto son confiables sus relaciones. Además, aborda sobre los diferentes tipos de análisis que podemos realizar para descubrir la relación entre los datos: análisis univariado, bivariado y multivariado. Cualquier conjunto de datos que queramos analizar tendrá diferentes campos (columnas) con…
-
EDA Avanzada: Exploración de Datos con Estadística Descriptiva y Visualización
¿Qué cubre el análisis de datos exploratorios avanzados? Varianza Calcular la media, mediana y moda es un buen comienzo para comprender la forma general de un conjunto de datos. Pero esas tres estadísticas solo cuentan parte de la historia. Considera los dos conjuntos siguientes: Ambos tienen la misma media y mediana (0), pero claramente no…
-
Del Modelo Lineal Simple a la Regresión por Mínimos Cuadrados
El ajuste por mínimos cuadrados es uno de los pilares del análisis de datos.Nos permite encontrar patrones y relaciones entre variables incluso cuando los datos no son perfectos. La idea esencial es siempre la misma: Buscar los coeficientes que minimicen el error entre las observaciones reales y las predicciones del modelo. A partir de aquí,…
-
Resolver Sistemas Lineales de Forma Probabilística con Regresión de Mínimos Cuadrados Ordinarios (OLS)
Consideremos un sistema sobredeterminado, donde la matriz no es cuadrada, sino rectangular: tiene dimensiones , siendo . Esto ocurre, por ejemplo, cuando tenemos más observaciones que variables. Podemos imaginar un ejemplo sencillo: Hasta aquí, todo parece un sistema de ecuaciones lineales clásico: .Sin embargo, en la vida real los precios no son constantes: cambian entre…
-
Cuando la matriz no es cuadrada: el truco del transpuesto
Imagina que tenemos una situación un poco diferente a la habitual. Supón que registramos el comportamiento de compra de varias personas en un supermercado. Tenemos los precios de los productos, los gastos totales de cada cliente, y una matriz que muestra cuántas unidades de cada producto compró cada uno. Cada persona compra distintas cantidades de…
-
Cuando el Backsolving falla: Variación en los Sistemas de Ecuaciones Lineales
En artículos anteriores trate del backsolving aplicado a sistemas de ecuaciones lineales, es decir, aquellos que tienen la forma . Donde es una matriz cuadrada conocida, es el vector de incógnitas y es el vector de resultados conocidos. Resolver este tipo de problemas consiste en aplicar el método de backsolving, lo que equivale a calcular…
-
Estadísticas Resumidas: La Base del Análisis de Datos Exploratorio
En el análisis de datos, especialmente cuando trabajamos con conjuntos de datos tabulares, es común que lo primero que queramos hacer sea “entender el terreno”: obtener una visión rápida de los patrones, la distribución y las características principales de las variables.A este proceso lo llamamos estadísticas resumidas (summary statistics), y constituye uno de los pilares…
