Categoría: Articulos

La Distribución Binomial: La Base Matemática para Contar Éxitos en Experimentos Repetidos
La distribución binomial es una de las herramientas más importantes en estadística y ciencia de datos. Aparece siempre que repetimos un experimento con dos posibles resultados —éxito o fracaso, sí o no, 1 o 0 — y queremos conocer la probabilidad de obtener cierto número de éxitos en un conjunto de intentos.

En esta clase veremos qué es, cómo se construye y por qué es tan útil para problemas reales como comprobar si una moneda está trucada, evaluar la precisión de un modelo o estimar tasas de éxito en marketing, medicina o industria.

Del experimento Bernoulli a la distribución Binomial

En el articulo anterior aborde la Distribución Bernoulli, que describe un experimento con dos resultados posibles:
- Éxito → se representa con 1
- Fracaso → se representa con 0
Si la probabilidad de éxito es p, entonces la probabilidad de fracaso es 1 – p.

La pregunta ahora es: ¿qué ocurre cuando repetimos este experimento varias veces?

Por ejemplo:
- Lanzar una moneda n veces
- Enviar n anuncios y medir si cada usuario hace clic
- Revisar n productos y ver si cada uno tiene defectos
La distribución que describe el número total de éxitos obtenidos en n intentos independientes es la Distribución Binomial.

Una aplicación real: ¿es justa una moneda? (Test de hipótesis)

Supón que quieres determinar si una moneda es justa.

Planteamos dos hipótesis:
- H₀ (Hipótesis nula): la moneda es justa → $ p = 0.5 $
- H₁ (Hipótesis alternativa): la moneda no es justa → $ p \neq 0.5 $
Lanzas la moneda n veces y defines:

$$X_i = \begin{cases}1, & \text{si sale cara} \\ 0, & \text{si sale cruz} \end{cases}$$

El número total de caras es:

$$S = X_1 + X_2 + \cdots + X_n$$

La pregunta clave es:

¿cuál es la probabilidad de que ocurra un determinado valor de S si la moneda es justa?

Responder a eso es exactamente el papel de la distribución binomial.

Construyendo la distribución binomial paso a paso

Caso S = 0 (todas cruces)

Para obtener 0 caras en n lanzamientos, todas deben ser cruces:

$$P(S=0) = (1 – p)^n$$

Solo existe una secuencia posible: TTTTT…T (n veces).

Caso S = 1 (una sola cara)

La probabilidad de que una secuencia concreta sea “una cara + n-1 cruces” es:

$$p(1-p)^{n-1}$$

Pero hay n posiciones posibles para esa única cara:
- Cara en el lanzamiento 1
- Cara en el lanzamiento 2
- …
- Cara en el lanzamiento n
Así que:

$$P(S=1) = n \cdot p(1-p)^{n-1}$$

Caso general: S = s

Para obtener exactamente s caras en n lanzamientos:

La probabilidad de una secuencia concreta es:

$$p^{s}(1-p)^{n-s}$$

El número de secuencias distintas que contienen exactamente s caras y n-s cruces es:

$$\begin{pmatrix} n \\ s \end{pmatrix}$$

que se lee “n elige s”.

Entonces, la probabilidad total es:

$$P(S=s) = \begin{pmatrix} n \\ s \end{pmatrix} p^{s}(1-p)^{n-s}$$

Esta es la fórmula de la distribución binomial.

¿Qué es el “n elige s”? La intuición del coeficiente binomial

El operador combinatorio:

$$ \begin{pmatrix} n \\ s \end{pmatrix} = \frac{n!}{s!(n-s)!}$$

cuenta cuántas formas hay de elegir s elementos dentro de un conjunto de n elementos, sin importar el orden.

Ejemplo clásico:

El número de manos posibles de 5 cartas tomadas de una baraja de 52 cartas es:

$$\begin{pmatrix}52 \\ 5 \end{pmatrix}$$

En nuestro contexto, representa cuántas secuencias distintas tienen s caras y n-s cruces.

¿Qué forma tiene la distribución binomial?

La distribución depende de dos parámetros:
- n → número de ensayos
- p → probabilidad de éxito en cada ensayo
Si aumentamos n (más repeticiones)
- El número máximo posible de éxitos crece
- La distribución se vuelve más “ancha” cuando se mira en términos de conteos
Pero si en vez de mirar S, miramos la fracción de éxitos:

$$\frac{S}{n}$$

lo que ocurre es que la distribución se estrecha alrededor de p. Esto conecta con la Ley de los Grandes Números.

Si cambiamos p (probabilidad de éxito)
- Si p aumenta → el histograma se desplaza hacia la derecha
- Si p disminuye → se desplaza hacia la izquierda
Cuando p = 0.5, la distribución es simétrica (si n es grande).

Propiedades importantes de la distribución binomial

Valor esperado (media)

$$E[S] = np$$

Varianza

$$Var(S) = np(1-p)$$

Aproximación normal (cuando n es grande)

Si (n) es suficientemente grande, la distribución binomial se aproxima a una normal:

$$S \approx \mathcal{N}(np, np(1-p))$$

Esto es extremadamente útil en estadística inferencial.

¿Para qué sirve la distribución binomial en ciencia de datos?
- Test A/B y marketing digital: Medir clics, conversiones o aperturas de email.
- Calidad industrial: Detectar la tasa de defectos.
- Modelos de clasificación: Analizar el número de aciertos vs. errores.
- Inferencia estadística: Construir intervalos de confianza para una proporción.
- Simulaciones y análisis de riesgo: Modelar escenarios de éxito/fracaso repetidos.
En Resumen

La distribución binomial:
- Surge al repetir un experimento Bernoulli n veces
- Modela el número de éxitos S en esas repeticiones
- Su fórmula combina:
  - Probabilidad de una secuencia → $ p^s (1-p)^{n-s} $
  - Número de secuencias posibles → $ \begin{pmatrix} n \\ s \end{pmatrix} $
- Tiene una estructura simple pero extremadamente poderosa
- Es fundamental en estadística, machine learning y análisis de datos aplicado
noviembre 17, 2025
La Distribución de Bernoulli — La base de la probabilidad binaria
En muchas situaciones del mundo real nos enfrentamos a experimentos que solo tienen dos posibles resultados. Por ejemplo:
- Lanzar una moneda: cara o cruz.
- Aprobar o suspender un examen.
- Un cliente hace clic en un anuncio o no lo hace.
- Una lámpara funciona o se funde.
Cuando un experimento tiene solo dos resultados posibles, podemos modelarlo mediante la distribución de Bernoulli, una de las distribuciones más simples y fundamentales en la estadística y la teoría de la probabilidad.

Esta distribución recibe su nombre del matemático suizo Jacob Bernoulli (1655–1705), y es la base de muchas distribuciones más complejas, como la binomial, la geométrica o la beta.

Definición formal

Una variable aleatoria Bernoulli $ X $ puede tomar solo dos valores:

$$X = \begin{cases} 1 & \text{con probabilidad } p \\ 0 & \text{con probabilidad } (1 – p)
\end{cases}$$

Donde $ p $ es el parámetro de la distribución y representa la probabilidad de éxito (por ejemplo, obtener “cara” en una moneda justa).

El parámetro $ p $ cumple que:

$$0 \leq p \leq 1$$

Función de masa de probabilidad (PMF)

La función que describe la probabilidad de cada posible resultado se llama función de masa de probabilidad (PMF):

$$P(X = x) = p^x (1 – p)^{1 – x}, \quad x \in {0, 1}$$

Aunque parezca complicada, en realidad es muy sencilla:
- Si ( x = 1 ): $ P(X=1) = p $
- Si ( x = 0 ): $ P(X=0) = 1 – p $
Por ejemplo, si ( p = 0.5 ), tenemos una moneda justa; si ( p = 0.8 ), una moneda sesgada hacia cara.

Esperanza o valor esperado

El valor esperado o esperanza matemática $E[X] [latex] representa el promedio que obtendríamos si repitiésemos el experimento infinitas veces.

Para una Bernoulli:

$$E[X] = 0 \times (1 – p) + 1 \times p = p$$

Es decir, la esperanza de una Bernoulli es igual al parámetro ( p ).

Si una moneda tiene ( p = 0.7 ) de salir cara, el valor esperado de obtener cara es 0.7.

Varianza

La varianza mide cuánto se dispersan los valores posibles de la variable respecto a su media.
En la Bernoulli, se calcula como:

$$Var(X) = p (1 – p)$$

Esto tiene una interpretación interesante:
- Cuando [latex] p = 0 $ o $ p = 1 $, la varianza es 0, ya que siempre se obtiene el mismo resultado.
- La varianza máxima se da cuando $ p = 0.5 $, es decir, cuando ambos resultados son igualmente probables.
Implementación en Python

Podemos representar la distribución de Bernoulli de varias formas en Python.
A continuación se muestran ejemplos con scipy y también una simulación manual con numpy.
import numpy as np import matplotlib.pyplot as plt from scipy.stats import bernoulli # Parámetro de la distribución p = 0.5 # Posibles valores de X (0 o 1) x = [0, 1] # Función de masa de probabilidad (PMF) pmf = bernoulli.pmf(x, p) # Graficamos plt.bar(x, pmf, color='skyblue', edgecolor='black') plt.xticks([0, 1], ['Fallo (0)', 'Éxito (1)']) plt.title(f'Distribución de Bernoulli (p = {p})') plt.ylabel('Probabilidad') plt.show()
```
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import bernoulli

# Parámetro de la distribución
p = 0.5

# Posibles valores de X (0 o 1)
x = [0, 1]

# Función de masa de probabilidad (PMF)
pmf = bernoulli.pmf(x, p)

# Graficamos
plt.bar(x, pmf, color='skyblue', edgecolor='black')
plt.xticks([0, 1], ['Fallo (0)', 'Éxito (1)'])
plt.title(f'Distribución de Bernoulli (p = {p})')
plt.ylabel('Probabilidad')
plt.show()
```
Esto mostrará una gráfica con dos barras, una en 0 con altura 0.5 y otra en 1 con altura 0.5.

Ejemplo: Esperanza y varianza
```
# Cálculo teórico
mean_theoretical = bernoulli.mean(p)
var_theoretical = bernoulli.var(p)

print(f"Esperanza (E[X]) = {mean_theoretical}")
print(f"Varianza (Var[X]) = {var_theoretical}")
```
Salida:
```
Esperanza (E[X]) = 0.5
Varianza (Var[X]) = 0.25
```
Ejemplo: Simulación con numpy

Vamos a simular 10,000 lanzamientos de una moneda con probabilidad p = 0.7 de salir cara.
```
# Simulación de 10,000 lanzamientos
n = 10_000
p = 0.7
data = np.random.binomial(1, p, size=n)  # Binomial con n=1 equivale a Bernoulli

# Resultados empíricos
mean_empirical = np.mean(data)
var_empirical = np.var(data)

print(f"Media observada: {mean_empirical:.3f}")
print(f"Varianza observada: {var_empirical:.3f}")
```
Salida:
```
Media observada: 0.703
Varianza observada: 0.209
```
7. Interpretación visual

La varianza $ Var(X) = p(1 – p) $ alcanza su máximo cuando $ p = 0.5 $.
Podemos comprobarlo gráficamente:
```
p_values = np.linspace(0, 1, 100)
variance = p_values * (1 - p_values)

plt.plot(p_values, variance, color='coral')
plt.title("Varianza de la Distribución de Bernoulli")
plt.xlabel("p")
plt.ylabel("Varianza")
plt.grid(True)
plt.show()
```
En resumen:

La distribución de Bernoulli es la piedra angular de la probabilidad binaria.
Su simplicidad la convierte en un modelo ideal para entender conceptos más avanzados, como:
- Distribución binomial: suma de varios experimentos Bernoulli independientes.
- Distribución beta: distribución continua conjugada para ( p ) en el contexto bayesiano.
- Procesos de clasificación binaria en machine learning (éxito/fracaso, 1/0).
En resumen:

Concepto Fórmula Interpretación
PMF ( P(X=x) = p^x (1-p)^{1-x} ) Probabilidad de éxito o fallo
Esperanza ( E[X] = p ) Promedio esperado
Varianza ( Var(X) = p(1-p) ) Dispersión de los resultados
noviembre 13, 2025

Concepto	Fórmula	Interpretación
PMF	( P(X=x) = p^x (1-p)^{1-x} )	Probabilidad de éxito o fallo
Esperanza	( E[X] = p )	Promedio esperado
Varianza	( Var(X) = p(1-p) )	Dispersión de los resultados

El Teorema de Bayes: Cómo Actualizar Nuestras Creencias con Nueva Evidencia

El Teorema de Bayes es una de las ideas más poderosas y elegantes de la probabilidad. Nos permite calcular la probabilidad de que algo sea cierto cuando tenemos nueva información o evidencia.

La Intuición: Probabilidades Condicionales

Imagina un experimento con dos pasos:

Lanzamos una moneda (con una probabilidad desconocida de salir cara).
Si sale cara, tiramos un dado de seis caras.
Si sale cruz, tiramos uno de veinte caras.

Ahora, supón que el resultado del dado fue un 5. La pregunta es: ¿Cuál es la probabilidad de que la moneda haya salido cara, sabiendo que el dado dio 5?”

Este es un ejemplo clásico de probabilidad condicional inversa: queremos invertir el sentido del razonamiento, pasando de

$$P(\text{dado}=5 | \text{cara})$$

$$P(\text{cara} | \text{dado}=5)$$

Derivando el Teorema

A partir de las definiciones básicas de probabilidad y usando la interpretación geométrica de áreas bajo la curva, se llega a la fórmula general:

$$P(A|B) = \frac{P(B|A) P(A)}{P(B)}$$

Donde:

$P(A) $ es la probabilidad inicial o priori de que ocurra $ A $.
$ P(B|A) $ es la verosimilitud: qué tan probable es observar $ B$ si $ A $ fuera cierto.
$ P(B) $ es la probabilidad total de $ B $, considerando todos los casos posibles.

Aplicación: Ejemplo del Test de COVID

Supongamos un test que da positivo el 80 % de las veces en la población general. Sabemos que si una persona tiene COVID, la probabilidad de que el test dé positivo es 0.9. Antes de hacernos el test, creemos que hay un 70 % de probabilidad de estar infectados.

Aplicando Bayes:

$$P(\text{COVID}|\text{test positivo}) = \frac{0.9 \times 0.7}{0.8} = 0.7875$$

Es decir, la probabilidad real de tener COVID aumenta a 78.75 % tras recibir el resultado positivo.

Actualización Iterativa

Lo más interesante es que Bayes nos permite actualizar las probabilidades cada vez que obtenemos nueva evidencia. Por ejemplo, si un compañero de piso también da positivo, podemos recalcular con esa información y la probabilidad aumentará (en este caso, hasta cerca del 88 %).

Este proceso de revisión continua de nuestras creencias es la base de muchos algoritmos de aprendizaje automático, donde los modelos aprenden y se ajustan con cada nuevo dato.

Inferencia Bayesiana con Python

La idea central de la inferencia bayesiana

En lugar de estimar un solo valor (como hace la estadística clásica), Bayes nos da una distribución completa sobre los posibles valores de los parámetros. Así podemos medir incertidumbre y ajustar nuestras creencias conforme llegan nuevos datos.

$$\text{Posterior} = \frac{\text{Verosimilitud} \times \text{Prior}}{\text{Evidencia}}$$

Ejemplo práctico: Clasificador Bayesiano simple

Veamos un ejemplo básico con Naive Bayes, aplicado a correos electrónicos.
No necesitamos datos reales todavía — solo entender el razonamiento.

from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

# Datos de ejemplo
emails = [
    "Oferta exclusiva gana dinero rápido",    # spam
    "Reunión de trabajo a las 10",            # no spam
    "Compra ahora descuento especial",        # spam
    "Adjunto informe mensual del proyecto"    # no spam
]

labels = [1, 0, 1, 0]  # 1 = spam, 0 = no spam

# Convertimos texto a matriz de frecuencias
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(emails)

# Entrenamos el modelo bayesiano
model = MultinomialNB()
model.fit(X, labels)

# Probamos con un nuevo mensaje
nuevo_email = ["oferta de trabajo con descuento"]
X_new = vectorizer.transform(nuevo_email)
prob_spam = model.predict_proba(X_new)

print("Probabilidad de SPAM:", prob_spam[0][1])

from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

# Datos de ejemplo
emails = [
    "Oferta exclusiva gana dinero rápido",    # spam
    "Reunión de trabajo a las 10",            # no spam
    "Compra ahora descuento especial",        # spam
    "Adjunto informe mensual del proyecto"    # no spam
]

labels = [1, 0, 1, 0]  # 1 = spam, 0 = no spam

# Convertimos texto a matriz de frecuencias
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(emails)

# Entrenamos el modelo bayesiano
model = MultinomialNB()
model.fit(X, labels)

# Probamos con un nuevo mensaje
nuevo_email = ["oferta de trabajo con descuento"]
X_new = vectorizer.transform(nuevo_email)
prob_spam = model.predict_proba(X_new)

print("Probabilidad de SPAM:", prob_spam[0][1])

Este modelo aplica el Teorema de Bayes a cada palabra del mensaje y combina los resultados suponiendo independencia entre ellas (por eso se llama Naive o “ingenuo”).

Inferencia bayesiana “real” con PyMC o NumPyro

Cuando queremos estimar parámetros desconocidos, usamos librerías especializadas como PyMC:

import pymc as pm
import arviz as az

# Ejemplo: estimar la probabilidad de éxito de una moneda sesgada
with pm.Model() as modelo:
    p = pm.Beta("p", alpha=2, beta=2)        # Prior: distribución beta
    observaciones = pm.Bernoulli("obs", p, observed=[1,0,1,1,0,1])  # Datos
    trazas = pm.sample(2000, tune=1000)

az.plot_posterior(trazas)

import pymc as pm
import arviz as az

# Ejemplo: estimar la probabilidad de éxito de una moneda sesgada
with pm.Model() as modelo:
    p = pm.Beta("p", alpha=2, beta=2)        # Prior: distribución beta
    observaciones = pm.Bernoulli("obs", p, observed=[1,0,1,1,0,1])  # Datos
    trazas = pm.sample(2000, tune=1000)

az.plot_posterior(trazas)

Aquí usamos una distribución Beta como priori, y tras observar los datos (caras y cruces) obtenemos la distribución posterior de p : nuestra creencia actualizada sobre cuán sesgada está la moneda.

¿Por qué es importante?

La inferencia bayesiana permite:

Actualizar modelos dinámicamente (ej. diagnóstico médico con nueva información).
Expresar incertidumbre en vez de dar una sola respuesta.
Combinar conocimiento previo con datos (por ejemplo, en modelos predictivos con pocos datos).

Por eso se usa en:

Machine Learning probabilístico
Sistemas de recomendación
Medicina y biología
Finanzas y predicción de riesgos

En resumen

Concepto	Interpretación Bayesiana
Prior	Lo que creemos antes de ver los datos
Evidencia	Los datos observados
Posterior	Lo que creemos después de ver los datos
Verosimilitud	Qué tan probable es ver esos datos si la hipótesis fuera cierta

noviembre 12, 2025

Probabilidad Condicional: Cómo un Suceso Afecta la Posibilidad de Otro
La probabilidad condicional es uno de los conceptos más importantes en estadística y ciencia de datos. Nos permite responder preguntas como:

¿Cuál es la probabilidad de que ocurra un evento A sabiendo que ya ocurrió un evento B?

En la vida real, casi ningún fenómeno ocurre de forma completamente independiente. Las variables se relacionan, se influyen y cambian entre sí. La probabilidad condicional nos da una forma matemática de actualizar nuestras expectativas cuando obtenemos nueva información.

Cuando los eventos no son independientes

Si dos eventos A y B son independientes, conocer que uno ocurrió no cambia la probabilidad del otro. Por ejemplo, lanzar una moneda y luego lanzar un dado son sucesos independientes.

Pero, ¿qué pasa si los eventos no son independientes? Entonces el hecho de que ocurra A modifica la probabilidad de que ocurra B. Esto es exactamente lo que estudia la probabilidad condicional.

Ejemplo: moneda y dado

Imaginemos un proceso aleatorio en dos pasos:
1. Lanzamos una moneda.
  - Probabilidad de cara = $ P(C) = P_c$
  - Probabilidad de escudo = $ P(E) = P_e = 1 – P_c$
2. Dependiendo del resultado, lanzamos un dado distinto:
  - Si sale cara, lanzamos un dado de 6 caras.
  - Si sale cruz, lanzamos un dado de 20 caras.
En este experimento, el tipo de dado que usamos depende del resultado de la moneda. Por tanto, el resultado del dado no es independiente del lanzamiento previo.

Calculando una probabilidad condicional

Queremos saber, por ejemplo: ¿Cuál es la probabilidad de obtener un 5 en el dado?

Existen dos formas de obtener un 5:

Caso 1: La moneda sale cara y el dado de 6 caras muestra un 5.

$$P(5 \text{ y cara}) = P(C) \times P(5|C)$$

Dado que el dado de 6 caras es justo:

$$P(5|C) = \frac{1}{6}$$

Entonces:

$$P(5 \text{ y cara}) = P_c \times \frac{1}{6}$$

Caso 2: La moneda sale cruz y el dado de 20 caras muestra un 5.

$$P(5 \text{ y cruz}) = P(E) \times P(5|E)$$

En este caso:

$$P(5|T) = \frac{1}{20}$$

Entonces:

$$P(5 \text{ y cruz}) = p_E \times \frac{1}{20}$$

La probabilidad total de obtener un 5 es la suma de ambos casos:

$$P(5) = p_H \times \frac{1}{6} + p_T \times \frac{1}{20}$$

Interpretación visual

Imagina el área total de posibles resultados del experimento como un rectángulo.
- Una parte representa los casos en que la moneda da cara y se lanza el dado de 6.
- La otra parte representa los casos con cruz y el dado de 20.
El área combinada de ambos representa la probabilidad total de obtener cualquier resultado posible. Dentro de cada zona, las franjas correspondientes al número “5” son pequeñas porciones de ese total, y su tamaño depende del tipo de dado y de la probabilidad de cada cara o cruz.

Definición formal

La probabilidad condicional de un evento A, dado que ocurrió B, se define como:

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

Es decir:

La probabilidad de que ocurra A dado que ocurrió B, es igual a la probabilidad de que ambos ocurran, dividida entre la probabilidad de B.

Ejemplo generalizado

Volviendo a nuestro experimento, podemos preguntar:

¿Cuál es la probabilidad de que el dado muestre 5 dado que salió cara?

Aplicamos la definición:

$$P(5|C) = \frac{P(5 \cap C)}{P(C)} = \frac{P_c \times \frac{1}{6}}{P_c } = \frac{1}{6}$$

Lo que confirma que, al saber que salió cara, solo nos interesa el dado de 6 caras, y cada resultado tiene probabilidad 1/6.

La regla del producto

De la definición anterior se deriva una relación muy útil:

$$P(A \cap B) = P(A|B) \times P(B)$$

Esta regla permite descomponer probabilidades conjuntas en términos condicionales y viceversa. También sirve para construir árboles de probabilidad, donde cada rama representa la probabilidad condicional de avanzar hacia un resultado dado.

El principio de no duplicar probabilidades

Un error común al calcular probabilidades es sumar eventos que no son independientes sin ajustar por su intersección.
Por ejemplo, si queremos la probabilidad de que ocurra A o B, debemos restar el solapamiento:

$$P(A \cup B) = P(A) + P(B) – P(A \cap B)$$

De lo contrario, estaríamos contando dos veces los casos en que A y B ocurren simultáneamente.

En Resumen

La probabilidad condicional nos enseña que la información cambia la probabilidad. Saber que algo ocurrió modifica lo que podemos esperar a continuación. Es la base de la estadística inferencial, la teoría bayesiana y gran parte del razonamiento probabilístico moderno.

Nos permite pasar de la incertidumbre total a una incertidumbre informada, paso esencial en cualquier proceso analítico.
noviembre 12, 2025
La probabilidad es área: una forma intuitiva de entender eventos
Cuando hablamos de probabilidad, a menudo pensamos en números entre 0 y 1, fracciones o porcentajes. Pero existe una forma geométrica e intuitiva de entender la probabilidad:
la probabilidad es área.

¿Qué significa que la probabilidad sea área?

La probabilidad de que ocurra un evento puede representarse como la proporción del área total correspondiente a ese evento dentro del espacio de todos los posibles resultados.

Imagina un espacio de resultados como un rectángulo o un círculo que representa todos los resultados posibles de un experimento.
- Cada punto dentro de este espacio es un resultado posible.
- Un evento es una región dentro de ese espacio.
- La probabilidad del evento es el área de esa región dividida entre el área total.
Ejemplo con un dado “geométrico”

Supongamos que lanzamos un dado y queremos visualizarlo en un diagrama rectangular:
- Cada resultado (1, 2, 3, 4, 5, 6) ocupa el mismo “espacio” dentro del rectángulo.
- El área de cada sección es igual, así que la probabilidad de cada resultado es:
$$P(\text{resultado}) = \frac{\text{área de la sección}}{\text{área total}} = \frac{1}{6}$$

Aquí, área = probabilidad.
Este enfoque funciona incluso si el dado está sesgado: las áreas de cada sección cambian según la probabilidad, pero la suma de todas las áreas sigue siendo 1.

Distribuciones continuas

El concepto de probabilidad como área es fundamental en variables continuas, donde los resultados posibles no son discretos. Por ejemplo, si lanzamos un dado “perfectamente continuo” que puede dar cualquier valor entre 0 y 1, entonces:
- No podemos hablar de un solo resultado: la probabilidad de un valor exacto es 0.
- Pero podemos calcular la probabilidad de un intervalo, que es proporcional al área bajo la curva de densidad.
Esto es la base de la probabilidad continua y la función de densidad (PDF):

$$P(a \leq X \leq b) = \int_{a}^{b} f(x) dx$$

Aquí, la integral representa el área bajo la curva entre los puntos a y b, y esa área es la probabilidad de que X esté en ese intervalo.

Visualizando la probabilidad como área

Una forma muy clara de entenderlo es mediante un diagrama de rectángulos o gráficos de barras:
- Cada barra representa un resultado posible.
- La altura de la barra corresponde a la “densidad” o probabilidad.
- El área de la barra es proporcional a la probabilidad del resultado.
En variables continuas, reemplazamos las barras por curvas suaves.
- Por ejemplo, la distribución normal es una curva de campana:
- La probabilidad de un intervalo es el área bajo la curva en ese intervalo.
Aplicaciones prácticas

Visualizar la probabilidad como área tiene ventajas:
1. Intuición inmediata: Nos ayuda a “ver” los eventos probables y menos probables.
2. Distribuciones continuas: Fundamental en estadística, machine learning y análisis de datos.
3. Comparación de eventos: Podemos comparar fácilmente qué evento es más probable observando qué área ocupa.
4. Simulaciones y Monte Carlo: Al generar puntos aleatorios dentro de un espacio, contar cuántos caen dentro de un evento es equivalente a calcular el área y, por lo tanto, la probabilidad.
En resumen
- La probabilidad puede visualizarse como área dentro de un espacio de resultados.
- En eventos discretos, el área es proporcional a la fracción de resultados posibles.
- En variables continuas, la probabilidad es el área bajo la curva de densidad.
- Este enfoque conecta geometría y estadística, haciendo que la probabilidad sea más intuitiva y visual.
noviembre 10, 2025
Probabilidad y Modelos Probabilísticos
La probabilidad es una herramienta matemática que nos permite cuantificar la incertidumbre asociada a fenómenos aleatorios. A través de ella, podemos estimar la posibilidad de que ocurran ciertos eventos y construir modelos que representen el comportamiento de sistemas inciertos: desde el lanzamiento de un dado hasta la predicción de enfermedades o el rendimiento de un modelo de Machine Learning.

El estudio de la probabilidad se basa en modelos formales, llamados modelos de probabilidad, que se sustentan en axiomas y reglas fundamentales. En esta sección exploraremos estos conceptos, desde las bases hasta aplicaciones prácticas como la Ley de Bayes o la construcción de un Clasificador de Bayes desde cero.

El Modelo de Probabilidad

Un modelo de probabilidad es un marco conceptual y matemático que permite analizar y predecir el comportamiento de fenómenos aleatorios.

Se apoya en dos componentes esenciales:
- Espacio muestral (Ω): el conjunto de todos los resultados posibles de un experimento aleatorio.
- Regla de probabilidad (P): una función que asigna valores entre 0 y 1 a cada subconjunto del espacio muestral.
El objetivo de este modelo es establecer una ley de probabilidad, una regla que asigne de manera coherente valores no negativos a los eventos, reflejando nuestro grado de confianza o creencia en que ocurran.

Asignación de Probabilidades

La asignación de probabilidades consiste en atribuir valores numéricos a los eventos del espacio muestral. Reflejando la confianza o la creencia en la ocurrencia de esos eventos.

La probabilidad de un evento $ A $, denotada como $P(A) $, representa qué tan probable es que $ A $ ocurra cuando se realiza el experimento.
Cumple siempre:

$$0 \leq P(A) \leq 1$$

Ley de Laplace

También conocida como la regla de la probabilidad clásica o equiprobable, establece que si un experimento aleatorio tiene resultados igualmente probables, entonces la probabilidad de un evento $E$ es el número de resultados en $|E|$ dividido por el número total de resultados posibles en el espacio muestral $|S|$.

$$P(E) = \frac{|E|}{|S|}$$

Ejemplo práctico:
Un bol contiene 3 bolas rojas y 2 azules.

$$P(\text{Roja}) = \frac{3}{5} = 0.6$$

Si no conocemos los colores, pero sabemos que hay 5 bolas idénticas, la probabilidad de sacar una cualquiera sería ( 1/5 ).

Axiomas de la Probabilidad

Formulados por Kolmogórov (1933), los axiomas definen la base formal de la probabilidad. Son las reglas fundamentales para definir las probabilidades de los eventos dentro del marco de la teoría de probabilidad.

No Negatividad:

El primer axioma establece que la probabilidad de cualquier evento es siempre un número no negativo.

$$ P(A) \geq 0 $$

Normalización:

La probabilidad del espacio muestral completo, representado como $S$, es igual a 1. Esto significa que es seguro que ocurrirá algún resultado del experimento aleatorio. Se expresa como:

$$P(S)=1$$

Aditividad (Regla de la Suma para eventos disjuntos):

Para dos eventos $A$ y $B$ que no pueden ocurrir al mismo tiempo (es decir, son mutuamente excluyentes), la regla de la suma establece que la probabilidad de que ocurra $A$ o $B$ es simplemente la suma de sus probabilidades individuales:

$$P(A∪B)=P(A)+P(B)$$

Regla de la Suma para eventos no excluyentes

La regla de la suma es una derivación del axioma de aditivita en caso de que los eventos no sean mutuamente excluyentes. Esta permite calcular la probabilidad de que ocurra al menos uno de dos eventos.

$$P(A \cup B) = P(A) + P(B) – P(A \cap B)$$

Ejemplo (cartas):
Probabilidad de sacar un as o un corazón:

$$P(A \cup B) = \frac{4}{52} + \frac{13}{52} – \frac{1}{52} $$

$$P(A \cup B) = \frac{16}{52} = \frac{4}{13}$$

Ejemplo (dados):
Número impar o mayor que 4:

$$P(A \cup B) = \frac{3}{6} + \frac{2}{6} – \frac{1}{6} $$

$$P(A \cup B)= \frac{4}{6} = \frac{2}{3}$$

Regla de la Multiplicación general

Es un teorema derivado de los axiomas de probabilidad se define a partir del concepto de probabilidad condicional. Permite calcular la probabilidad de que ocurran dos o más eventos a la vez.

Dado que A paso, ¿Cuál es la probabilidad de B?

$$P(A \cap B) = P(A) \times P(B|A)$$

Eventos independientes:

Si A y B son independientes (el resultado de uno no afecta al otro):

$$P(B∣A)=P(B)$$

Entonces:

$$P(A \cap B) = P(A) \times P(B)$$

Ejemplo (cartas sin reemplazo):

$$P(\text{Dos Ases}) = \frac{4}{52} \times \frac{3}{51} $$

$$P(\text{Dos Ases}) = \frac{12}{2652} \approx 0.0045$$

Diagramas de Árbol

Un diagrama de árbol representa de forma visual las posibles secuencias de eventos y sus probabilidades. Cada rama muestra un resultado y la probabilidad asociada.

Ejemplo (dos monedas):

Cada camino representa un evento y su probabilidad se obtiene multiplicando las ramas.

Derivaciones de los Axiomas

A partir de estos axiomas, se pueden deducir varias reglas importantes que son esenciales para el trabajo práctico en probabilidad y estadística.:

Probabilidad del Complemento de un Evento:

Una de las derivaciones más directas es la probabilidad del complemento de un evento. Si A es un evento, entonces el complemento de A, denotado $ A^c$, representa la ocurrencia de $no−A$. Utilizando los axiomas, se puede demostrar que:

$$P(A^c) = 1 – P(A)$$

Esto se deduce del hecho de que $ A$, y $ A^c$ son mutuamente excluyentes y su unión es el espacio muestral completo, cuya probabilidad es 1.

Probabilidad de Eventos Vacíos y Ciertos:

Directamente de los axiomas, se establece que la probabilidad del conjunto vacío $∅$, que es un evento imposible, es 0:

$$P(\emptyset) = 0 $$

Asimismo, la probabilidad del espacio muestral completo $ Ω$ , que representa un evento seguro, es 1:

$$P(Ω)=1$$

Monotonicidad:

Si un evento A es un subconjunto de otro evento B, entonces la probabilidad de A es menor o igual a la probabilidad de B. Esto refleja la idea de que la ocurrencia de B incluye la ocurrencia de A junto con posiblemente otros resultados:

$$A \subseteq B \Rightarrow P(A) \leq P(B$$

Probabilidad de unión:

Para dos eventos A y B, la probabilidad de su unión puede ser expresada en términos de las probabilidades de A, B, y su intersección $A∩B$. Esta regla se aplica incluso si A y B no son disjuntos y se deriva como sigue:

$$ P(A \cup B) = P(A) + P(B) – P(A \cap B)$$

Esto ajusta la aditividad para el caso de eventos que no son mutuamente excluyentes, evitando la sobre contabilización de la intersección de A y B.

Subaditividad:

La subaditividad se refiere a la propiedad de que la probabilidad de la unión de cualquier colección de eventos es menor o igual a la suma de sus probabilidades individuales. Para una secuencia de eventos $A1,A2,….,An$:

Esta propiedad es particularmente útil para tratar con uniones de eventos que no son necesariamente disjuntos.

Límites de Probabilidad:

Cualquier probabilidad $P(A)$ para un evento A siempre estará en el rango de 0 a 1, inclusive. Esto se deriva del hecho de que todas las probabilidades son no negativas y que la probabilidad del espacio muestral, el conjunto más grande posible, es 1.

Tablas de Contingencia

Organizan y muestran las probabilidades de combinaciones de dos variables.+

Ejemplo:

En una ciudad el 60% de las personas tienen ojos negros, el 80% tienen cabello negro y el 50% tienen cabello negro y ojos negros. Si se selecciona una persona al azar, calcule la probabilidad que:
- No tenga los ojos negros.
- Tenga los ojos o cabello negro
- O –> Ojos Negros
- C –> Cabellos Negros
Variables Ojos Negros Ojos No Negros Total
Cabello Negro 50% 30% 80%
Cabello No Negro 10% 10% 20%
Total 60% 40% 1.00

Las tablas permiten calcular probabilidades marginales, conjuntas y condicionales de manera sencilla.

Modelos de Probabilidad Discretos

Los modelos de probabilidad discretos se ocupan de experimentos donde el número de posibles resultados es finito o contable. Un ejemplo clásico es el lanzamiento de dados, donde los resultados posibles pueden listarse de manera explícita.

Ejemplo: dos dados de cuatro caras.

Supongamos que tenemos dos dados de cuatro caras, donde cada resultado tiene una probabilidad de 1/161/16, podemos construir una tabla que muestre todas las combinaciones posibles de los resultados de los dos dados. Cada dado puede mostrar uno de cuatro resultados posibles (1, 2, 3, o 4), lo que nos da un total de 4×4=164×4=16 combinaciones posibles para los dos dados.

Probabilidades 1 2 3 4
1 1/16 1/16 1/16 1/16
2 1/16 1/16 1/16 1/16
3 1/16 1/16 1/16 1/16
4 1/16 1/16 1/16 1/16

Sumas 1 2 3 4
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8

Probabilidad de suma par: 8 combinaciones → ( 8/16 = 1/2 )
Probabilidad de al menos un 4: 7 combinaciones → ( 7/16 )

Ejemplo Aplicado: Diagnóstico Médico

Un médico sabe que:
- $ P(\text{Malaria}) = 0.6 $
- $ P(\text{Tifoidea}) = 0.7 $
- $ P(\text{Ambas}) = 0.4 $
La probabilidad de que no tenga ninguna enfermedad:

$$P(\text{No M ni T}) = 1 – P(\text{M} \cup \text{T}) = 1 – [0.6 + 0.7 – 0.4] = 0.1$$

El 10% de los pacientes no tendra ninguna enfermedad.

En resumen
- Las distribuciones de probabilidad son la base para el análisis estadístico, la simulación y la inferencia.
- La probabilidad mide la incertidumbre.
- Todo experimento tiene un conjunto de posibles resultados (espacio muestral).
- Los eventos son subconjuntos de ese espacio.
- Las probabilidades se pueden estimar mediante la frecuencia de los resultados en ensayos repetidos.
- La suma de las probabilidades de todos los resultados posibles siempre es 1.
noviembre 6, 2025

Variables	Ojos Negros	Ojos No Negros	Total
Cabello Negro	50%	30%	80%
Cabello No Negro	10%	10%	20%
Total	60%	40%	1.00

Probabilidades	1	2	3	4
1	1/16	1/16	1/16	1/16
2	1/16	1/16	1/16	1/16
3	1/16	1/16	1/16	1/16
4	1/16	1/16	1/16	1/16

Sumas	1	2	3	4
1	2	3	4	5
2	3	4	5	6
3	4	5	6	7
4	5	6	7	8

Experimento Aleatorio, Espacio Muestral y Eventos

¿Qué es un Experimento Aleatorio?

Se refiere a cualquier proceso o acción que se realiza bajo condiciones específicas y controladas, pero que, sin embargo, puede producir diferentes resultados en cada realización, sin que sea posible predecir con certeza cuál será el resultado específico en una instancia particular del experimento. La característica distintiva de un experimento aleatorio es esta incertidumbre inherente en el resultado.

Aunque las condiciones sean las mismas, el resultado puede variar en cada repetición.
La característica clave es la incertidumbre del resultado.

Características de un Experimento Aleatorio

Múltiples resultados posibles:
Puede producir más de un resultado distinto.
Ejemplo: al lanzar un dado, los posibles resultados son ( {1, 2, 3, 4, 5, 6} ).
Resultado impredecible:
No se puede saber con certeza cuál será el resultado antes de realizar el experimento.
Repetibilidad:
El experimento puede repetirse bajo las mismas condiciones, manteniendo las mismas probabilidades para cada posible resultado.

Ejemplos Clásicos

Experimento	Espacio Muestral
Lanzar una moneda	{Cara, Cruz}
Lanzar un dado	{1, 2, 3, 4, 5, 6}
Extraer una carta de una baraja	52 posibles resultados
Medir el tiempo de vida de un componente	valores continuos en segundos o días

Resultado (Punto Muestral)

En el contexto de experimentos aleatorios en probabilidad y estadística. Un resultado es definido como el resultado observable de realizar un experimento, el cual, bajo las mismas condiciones, puede variar en cada realización. Esto ilustra la naturaleza aleatoria de tales experimentos, donde no es posible predecir con certeza el resultado específico antes de realizar el experimento.

Ejemplos:

Lanzar una moneda 4 veces: $B = {Cara, Cruz, Cara, Cara} $
Lanzar un dado 2 veces: $A = {4, 6} $
Extraer una carta: $ C = {«A de corazones»} $

Espacio Muestral (S o Ω)

El espacio muestral es el conjunto de todos los posibles resultados de un experimento aleatorio. simbolizado comúnmente como S o Ω. Cada resultado individual dentro del espacio muestral es un punto muestral.

$$S = {R_1, R_2, …, R_n}$$

Ejemplos:

Moneda: $ S = {Cara, Cruz} $
Dos monedas: $S = {(Cara, Cara), (Cara, Cruz), (Cruz, Cara), (Cruz, Cruz)} $
Dado de 6 caras: $ S = {1, 2, 3, 4, 5, 6} $

Algunos espacios muestrales pueden ser infinitos, como lanzar una moneda hasta obtener “Cara”. Aunque sea infinito, sigue siendo contable, ya que podemos enumerar los posibles resultados.

Ejemplo en Python

import itertools

# Lanzar dos monedas
monedas = ["Cara", "Cruz"]
S = list(itertools.product(monedas, repeat=2))
print("Espacio muestral:", S)

import itertools

# Lanzar dos monedas
monedas = ["Cara", "Cruz"]
S = list(itertools.product(monedas, repeat=2))
print("Espacio muestral:", S)

Salida:

Espacio muestral: [('Cara', 'Cara'), ('Cara', 'Cruz'), ('Cruz', 'Cara'), ('Cruz', 'Cruz')]

Espacio muestral: [('Cara', 'Cara'), ('Cara', 'Cruz'), ('Cruz', 'Cara'), ('Cruz', 'Cruz')]

Eventos

Un evento o suceso se define como uno o cualquier conjunto de resultados posibles de un experimento. El espacio muestral S o Ω de un experimento es el conjunto de todos los posibles resultados individuales, y un evento es cualquier subconjunto de este espacio. Esto incluye desde el conjunto vacío, que representa un evento que nunca ocurre, hasta el espacio muestral completo, que es un evento que siempre ocurre.

Evento seguro: ocurre siempre → coincide con todo el espacio muestral.
Evento imposible: nunca ocurre → conjunto vacío $\emptyset $.

Ejemplo:

Lanzamos dos monedas:

$$S = {(Cara, Cara), (Cara, Cruz), (Cruz, Cara), (Cruz, Cruz)}$$

Evento $A$: “la primera moneda sea Cara”
$$A = {(Cara, Cara), (Cara, Cruz)}$

Ejemplo en Python

S = [("Cara", "Cara"), ("Cara", "Cruz"), ("Cruz", "Cara"), ("Cruz", "Cruz")]
A = [x for x in S if x[0] == "Cara"]
print("Evento A:", A)

S = [("Cara", "Cara"), ("Cara", "Cruz"), ("Cruz", "Cara"), ("Cruz", "Cruz")]
A = [x for x in S if x[0] == "Cara"]
print("Evento A:", A)

Salida:

Evento A: [('Cara', 'Cara'), ('Cara', 'Cruz')]

Evento A: [('Cara', 'Cara'), ('Cara', 'Cruz')]

Eventos Mutuamente Excluyentes

Dos eventos son mutuamente excluyentes si no pueden ocurrir al mismo tiempo.
En el lanzamiento de una moneda, los eventos “Cara” y “Cruz” son mutuamente excluyentes.

Ejemplo con Dado:

( A ): número impar → {1, 3, 5}
( B ): número mayor que 4 → {5, 6}
Intersección: {5}
⇒ No son mutuamente excluyentes.

Visualización con Diagramas de Venn

Podemos usar matplotlib-venn para visualizar intersecciones de eventos.

from matplotlib import pyplot as plt
from matplotlib_venn import venn2

A = set([1, 3, 5])
B = set([5, 6])

venn2([A, B], set_labels=('A: números impares', 'B: > 4'))
plt.title("Eventos A y B (no mutuamente excluyentes)")
plt.show()

from matplotlib import pyplot as plt
from matplotlib_venn import venn2

A = set([1, 3, 5])
B = set([5, 6])

venn2([A, B], set_labels=('A: números impares', 'B: > 4'))
plt.title("Eventos A y B (no mutuamente excluyentes)")
plt.show()

Resumen Conceptual

Concepto	Descripción	Ejemplo
Experimento Aleatorio	Proceso con resultado incierto	Lanzar un dado
Resultado	Un resultado individual	“5”
Espacio Muestral (S)	Conjunto de todos los resultados	{1,2,3,4,5,6}
Evento	Subconjunto de S	“número par” = {2,4,6}
Eventos Mutuamente Excluyentes	No pueden ocurrir simultáneamente	“Cara” y “Cruz”

En la práctica estadística

En estadística aplicada y machine learning, estos conceptos son fundamentales porque:

Permiten modelar la incertidumbre (base de la probabilidad).
Sirven para definir variables aleatorias y distribuciones.
Son la base de los métodos inferenciales, como estimación o pruebas de hipótesis.

¿Quieres que el siguiente artículo de la serie sea sobre variables aleatorias (discretas y continuas) o sobre probabilidad condicional y regla de Bayes?

noviembre 6, 2025

Conjuntos en Estadística: Fundamentos y Aplicación en Python

Los conjuntos son uno de los conceptos más básicos y a la vez más importantes en estadística y probabilidad. Toda la teoría de la probabilidad —y, por extensión, gran parte del análisis estadístico— se construye sobre la teoría de conjuntos, que nos permite describir y razonar sobre eventos, muestras y resultados posibles.

¿Qué es un Conjunto?

Un conjunto es una colección bien definida de elementos, que pueden ser números, personas, objetos o resultados de un experimento.

En estadística, usamos conjuntos para describir:

El espacio muestral (todos los resultados posibles de un experimento).
Los eventos (subconjuntos del espacio muestral).
Las relaciones entre distintos eventos.

Por ejemplo:

Si lanzamos un dado, el espacio muestral es

$$S = {1, 2, 3, 4, 5, 6}$$

Un evento puede ser “obtener un número par”:

$$A = {2, 4, 6}$$

Operaciones entre Conjuntos

Las operaciones entre conjuntos reflejan relaciones entre eventos en probabilidad.

Operación	Descripción	Símbolo	Ejemplo (en el dado)
Unión	Ocurre A o B (o ambos)	$A \cup B$	“Número par o mayor que 4”
Intersección	Ocurre A y B a la vez	$A \cap B$	“Número par y mayor que 4”
Complemento	No ocurre A	$A’$ o $A^c$	“Número impar”
Diferencia	Elementos en A que no están en B	$A – B$	“Números pares que no son mayores que 4”

Estas operaciones son la base del cálculo de probabilidades, porque cada evento se asocia con un conjunto de resultados, y las reglas de probabilidad siguen las mismas leyes que los conjuntos (como las Leyes de De Morgan).

Ejemplo Práctico en Python

Podemos representar los conjuntos y operaciones anteriores fácilmente con set:

# Espacio muestral del lanzamiento de un dado
S = {1, 2, 3, 4, 5, 6}

# Eventos
A = {2, 4, 6}  # número par
B = {4, 5, 6}  # número mayor que 3

# Operaciones entre conjuntos
union = A | B
interseccion = A & B
complemento = S - A
diferencia = A - B

print("A ∪ B =", union)
print("A ∩ B =", interseccion)
print("A' =", complemento)
print("A - B =", diferencia)

# Espacio muestral del lanzamiento de un dado
S = {1, 2, 3, 4, 5, 6}

# Eventos
A = {2, 4, 6}  # número par
B = {4, 5, 6}  # número mayor que 3

# Operaciones entre conjuntos
union = A | B
interseccion = A & B
complemento = S - A
diferencia = A - B

print("A ∪ B =", union)
print("A ∩ B =", interseccion)
print("A' =", complemento)
print("A - B =", diferencia)

Salida:

A ∪ B = {2, 4, 5, 6}
A ∩ B = {4, 6}
A' = {1, 3, 5}
A - B = {2}

A ∪ B = {2, 4, 5, 6}
A ∩ B = {4, 6}
A' = {1, 3, 5}
A - B = {2}

Conjuntos y Probabilidad

En la teoría de la probabilidad, los conjuntos se usan para definir y combinar eventos.
La probabilidad de un evento $ A $ se define como la proporción de casos favorables respecto al total de casos posibles:

$$P(A) = \frac{|A|}{|S|}$$

Ejemplo:

$$S = {1,2,3,4,5,6}, \quad A = {2,4,6}$$

$$P(A) = \frac{3}{6} = 0.5$$

En Python, podemos calcularlo así:

S = {1,2,3,4,5,6}
A = {2,4,6}

P_A = len(A) / len(S)
print(f"P(A) = {P_A}")

S = {1,2,3,4,5,6}
A = {2,4,6}

P_A = len(A) / len(S)
print(f"P(A) = {P_A}")

Salida:

P(A) = 0.5

P(A) = 0.5

Leyes de De Morgan en Probabilidad

Las Leyes de De Morgan conectan los conceptos de unión, intersección y complemento, tanto en conjuntos como en eventos probabilísticos:

$$(A \cup B)’ = A’ \cap B’$$

$$(A \cap B)’ = A’ \cup B’$$

Estas leyes permiten simplificar cálculos y entender mejor la relación entre eventos.

Verificación en Python: assert no devuelve ningún valor. Es una instrucción de verificación:

Si la condición es verdadera, no hace nada.
Si la condición es falsa, lanza un AssertionError.

U = {1, 2, 3, 4, 5, 6}
A = {1, 2, 3}
B = {3, 4, 5}

# Leyes de De Morgan:
# (A ∪ B)' = A' ∩ B'
# (A ∩ B)' = A' ∪ B'

assert U - (A | B) == (U - A) & (U - B)
assert U - (A & B) == (U - A) | (U - B)

print("Ambas leyes de De Morgan se verifican correctamente.")

U = {1, 2, 3, 4, 5, 6}
A = {1, 2, 3}
B = {3, 4, 5}

# Leyes de De Morgan:
# (A ∪ B)' = A' ∩ B'
# (A ∩ B)' = A' ∪ B'

assert U - (A | B) == (U - A) & (U - B)
assert U - (A & B) == (U - A) | (U - B)

print("Ambas leyes de De Morgan se verifican correctamente.")

Representación Visual: Diagramas de Venn

En estadística, los diagramas de Venn son una herramienta visual para representar eventos y sus intersecciones.

En Python podemos generarlos fácilmente:

from matplotlib import pyplot as plt
from matplotlib_venn import venn2

A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}

union = A | B
interseccion = A & B
diferencia = A - B

print("A ∪ B:", union)
print("A ∩ B:", interseccion)
print("A - B:", diferencia)

venn2([A, B], set_labels=('A', 'B'))
plt.title("Operaciones entre conjuntos")
plt.show()

from matplotlib import pyplot as plt
from matplotlib_venn import venn2

A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}

union = A | B
interseccion = A & B
diferencia = A - B

print("A ∪ B:", union)
print("A ∩ B:", interseccion)
print("A - B:", diferencia)

venn2([A, B], set_labels=('A', 'B'))
plt.title("Operaciones entre conjuntos")
plt.show()

Union - A ∪ B: {1, 2, 3, 4, 5, 6, 7, 8}
Interseccion - A ∩ B: {4, 5}
Diferencia -  A - B: {1, 2, 3}

Union - A ∪ B: {1, 2, 3, 4, 5, 6, 7, 8}
Interseccion - A ∩ B: {4, 5}
Diferencia -  A - B: {1, 2, 3}

Estos gráficos son muy útiles al enseñar reglas de probabilidad, interdependencia de eventos y espacios muestrales.

En Resumen

Concepto	En Estadística	En Python
Espacio muestral	Todos los resultados posibles	`set()`
Evento	Subconjunto de resultados	subconjunto de `set()`
Probabilidad	$P(A)$	A
Unión de eventos	$A \cup B$	`A
Intersección	$A \cap B$	`A & B`
Complemento	$A’$	`S - A`
Diferencia	$A – B$	`A - B`

noviembre 6, 2025

Probabilidad vs Estadística: Mirar Hacia Adelante o Mirar Hacia Atrás

Cuando trabajamos con datos, es muy común escuchar los términos probabilidad y estadística. A menudo se usan de manera indistinta, pero en realidad representan dos enfoques complementarios dentro del análisis cuantitativo: uno mira hacia el futuro y el otro hacia el pasado.

¿Qué es la Probabilidad?

La probabilidad es la rama de la matemática que estudia la incertidumbre de los eventos futuros. Su objetivo es predecir la posibilidad de que algo ocurra, basándose en un modelo o conjunto de reglas conocidas.

En términos simples:

Si la probabilidad de un evento es 0, significa que no puede ocurrir.
Si es 1, significa que ocurrirá con certeza.
Y si es, por ejemplo, 0.73, interpretamos que hay un 73% de confianza en que el evento sucederá.

Por ejemplo, si lanzamos una moneda justa, la probabilidad de obtener “cara” es de 0.5.
No sabemos qué ocurrirá en un lanzamiento particular, pero sí podemos modelar el comportamiento esperado a largo plazo.

La probabilidad como teoría se enfoca en desarrollar leyes, reglas y fórmulas matemáticas que permiten cuantificar la incertidumbre. No necesita datos históricos; parte de supuestos o modelos ideales (por ejemplo, monedas justas, dados equilibrados, distribuciones normales, etc.).

¿Qué es la Estadística?

La estadística, en cambio, mira hacia el pasado. Su tarea es aprender de los datos existentes: descubrir patrones, estimar parámetros y generar modelos que expliquen la realidad observada.

Mientras la probabilidad se basa en reglas teóricas para predecir el futuro, la estadística extrae esas reglas a partir de datos reales.

Por ejemplo, si observamos el resultado de 1000 lanzamientos de una moneda y obtenemos 520 caras y 480 cruces, podemos usar estadística para inferir si la moneda es justa o no.

En ciencia de datos, la estadística incluye:

Descriptiva → resumir y visualizar datos (media, desviación estándar, histogramas, etc.)
Inferencial → estimar y hacer inferencias sobre una población usando una muestra (intervalos de confianza, tests de hipótesis, regresión, etc.)

Ejemplo práctico

Supongamos que tenemos datos históricos de lluvia de los últimos 10 años en una ciudad.

Un estadístico analizará los datos pasados para estimar la frecuencia de días lluviosos, promedios, variaciones y tendencias.
→ “En promedio, llueve el 30% de los días del año.”
Un probabilista utilizará esos patrones para predecir la probabilidad de que mañana llueva.
→ “Según el modelo, la probabilidad de lluvia mañana es del 35%.”

En Ciencia de Datos

En los proyectos de ciencia de datos, ambas disciplinas trabajan juntas:

Etapa del proceso	Enfoque	Objetivo
Exploración y limpieza	Estadística descriptiva	Entender y preparar los datos
Modelado y ajuste	Estadística inferencial	Estimar parámetros del modelo
Predicción	Probabilidad aplicada	Calcular probabilidades de eventos futuros
Evaluación del modelo	Estadística y probabilidad	Validar y cuantificar incertidumbre

Por ejemplo, cuando entrenamos un modelo de clasificación, usamos estadística para estimar los parámetros del modelo y probabilidad para predecir la pertenencia de un nuevo dato a una clase determinada.

noviembre 6, 2025

Guía rápida de referencia: Expresiones Regulares en Python

Las expresiones regulares son una herramienta esencial en Python para buscar, validar y transformar texto. Se implementan a través del módulo estándar re, que proporciona funciones como search(), match(), findall(), split() o sub().

Puedes experimentar tus expresiones directamente en regex101.com seleccionando el motor Python.

Clases de Caracteres

Expresión	Descripción
`[ABC]`	Coincide con cualquiera de los caracteres dentro de los corchetes.
`[^ABC]`	Coincide con cualquier carácter que no esté en el conjunto.
`[A-Z]`	Coincide con un carácter dentro del rango especificado (inclusive).
`.`	Coincide con cualquier carácter, excepto el salto de línea (`\n`). Puede incluirlo si se usa la bandera `re.S`.
`\w`	Coincide con un carácter de palabra (letra, número o guion bajo). Equivalente a `[A-Za-z0-9_]`.
`\W`	Coincide con cualquier carácter que no sea de palabra.
`\d`	Coincide con un dígito (`0–9`).
`\D`	Coincide con cualquier carácter que no sea un dígito.
`\s`	Coincide con un carácter de espacio en blanco (espacio, tab, salto de línea, retorno de carro, etc.).
`\S`	Coincide con cualquier carácter que no sea espacio en blanco.
`\n`, `\r`, `\t`, `\f`, `\v`	Coinciden con salto de línea, retorno de carro, tabulación, salto de página y tabulación vertical, respectivamente.
`\xFF`	Coincide con el carácter cuyo valor hexadecimal es `FF`.
`\uFFFF`	Coincide con el carácter Unicode especificado (por ejemplo `\u00F1` → ñ).

Anclas

Expresión	Descripción
`^`	Coincide con el inicio de la cadena o de una línea (si se usa `re.M`).
`$`	Coincide con el final de la cadena o de una línea (si se usa `re.M`).
`\b`	Coincide con un límite de palabra (entre un carácter de palabra y uno que no lo es).
`\B`	Coincide con una posición que no sea límite de palabra.
`\A`	Coincide solo al inicio de toda la cadena (no afectado por `re.M`).
`\Z`	Coincide solo al final de toda la cadena (no afectado por `re.M`).

Grupos de Captura

Expresión	Descripción
`(ABC)`	Agrupa tokens y crea un grupo de captura.
`(?P<nombre>ABC)`	Grupo de captura con nombre, referenciable como `(?P=nombre)` o `\g<nombre>` en reemplazos.
`\1`, `\2`, `\3`	Referencias a grupos de captura por número.
`(?:ABC)`	Grupo no capturante: agrupa sin guardar coincidencias.

Lookaround (búsquedas anticipadas y retrospectivas)

Expresión	Descripción
`(?=ABC)`	Lookahead positivo: coincide si después del patrón actual está `ABC`.
`(?!ABC)`	Lookahead negativo: coincide si no hay `ABC` después.
`(?<=ABC)`	Lookbehind positivo: coincide si antes del patrón está `ABC`.
`(?<!ABC)`	Lookbehind negativo: coincide si no hay `ABC` antes.

Cuantificadores y Alternancia

Expresión	Descripción
`+`	1 o más repeticiones del token anterior.
`*`	0 o más repeticiones del token anterior.
`?`	0 o 1 del token anterior (opcional).
`{n}`	Exactamente n repeticiones.
`{n,}`	n o más repeticiones.
`{n,m}`	Entre n y m repeticiones.
`+?`, `*?`, `??`, `{n,m}?`	Cuantificadores no codiciosos (buscan la menor coincidencia posible).
`	`

Sustitución (Reemplazo en `re.sub()`)

Expresión	Descripción
`\1`, `\2`, …	Inserta el texto del grupo de captura correspondiente.
`\g<nombre>`	Inserta el texto del grupo con nombre.
`\\`	Inserta un carácter `\` literal.
`\n`, `\r`, `\t`	Caracteres de escape comunes.

Banderas en Python (`re`)

Bandera	Descripción
`re.I` o `re.IGNORECASE`	Ignora mayúsculas y minúsculas.
`re.M` o `re.MULTILINE`	`^` y `$` coinciden al inicio y final de cada línea.
`re.S` o `re.DOTALL`	Hace que `.` coincida también con saltos de línea.
`re.U` o `re.UNICODE`	Interpreta `\w`, `\W`, `\b` y `\B` según Unicode (activado por defecto en Python 3).
`re.X` o `re.VERBOSE`	Permite escribir expresiones legibles con espacios y comentarios.
`re.A` o `re.ASCII`	Hace que `\w`, `\b`, `\d` y `\s` solo reconozcan caracteres ASCII.

noviembre 6, 2025

Operación	Descripción	Símbolo	Ejemplo (en el dado)
Unión	Ocurre A o B (o ambos)	\(A \cup B\)	“Número par o mayor que 4”
Intersección	Ocurre A y B a la vez	\(A \cap B\)	“Número par y mayor que 4”
Complemento	No ocurre A	\(A’\) o \(A^c\)	“Número impar”
Diferencia	Elementos en A que no están en B	\(A – B\)	“Números pares que no son mayores que 4”

Categoría: Articulos

Del experimento Bernoulli a la distribución Binomial

Una aplicación real: ¿es justa una moneda? (Test de hipótesis)

Construyendo la distribución binomial paso a paso

Caso S = 0 (todas cruces)

Caso S = 1 (una sola cara)

Caso general: S = s

¿Qué es el “n elige s”? La intuición del coeficiente binomial

¿Qué forma tiene la distribución binomial?

Si aumentamos n (más repeticiones)

Si cambiamos p (probabilidad de éxito)

Propiedades importantes de la distribución binomial

Valor esperado (media)

Varianza

Aproximación normal (cuando n es grande)

¿Para qué sirve la distribución binomial en ciencia de datos?

En Resumen

Definición formal

Función de masa de probabilidad (PMF)

Esperanza o valor esperado

Varianza

Implementación en Python

Ejemplo: Esperanza y varianza

Ejemplo: Simulación con numpy

7. Interpretación visual

En resumen:

La Intuición: Probabilidades Condicionales

Derivando el Teorema

Aplicación: Ejemplo del Test de COVID

Actualización Iterativa

Inferencia Bayesiana con Python

La idea central de la inferencia bayesiana

Ejemplo práctico: Clasificador Bayesiano simple

Inferencia bayesiana “real” con PyMC o NumPyro

¿Por qué es importante?

En resumen

Cuando los eventos no son independientes

Ejemplo: moneda y dado

Calculando una probabilidad condicional

Interpretación visual

Definición formal

Ejemplo generalizado

La regla del producto

El principio de no duplicar probabilidades

En Resumen

¿Qué significa que la probabilidad sea área?

Ejemplo con un dado “geométrico”

Distribuciones continuas

Visualizando la probabilidad como área

Aplicaciones prácticas

En resumen

El Modelo de Probabilidad

Asignación de Probabilidades

Ley de Laplace

Axiomas de la Probabilidad

Regla de la Suma para eventos no excluyentes

Regla de la Multiplicación general

Eventos independientes:

Diagramas de Árbol

Derivaciones de los Axiomas

Tablas de Contingencia

Modelos de Probabilidad Discretos

Ejemplo Aplicado: Diagnóstico Médico

En resumen

¿Qué es un Experimento Aleatorio?

Características de un Experimento Aleatorio

Ejemplos Clásicos

Resultado (Punto Muestral)

Ejemplos:

Espacio Muestral (S o Ω)

Ejemplos:

Ejemplo en Python

Eventos

Ejemplo:

Ejemplo en Python

Eventos Mutuamente Excluyentes

Ejemplo con Dado:

Visualización con Diagramas de Venn

Resumen Conceptual

En la práctica estadística

Ejemplo: Simulación con `numpy`

Sustitución (Reemplazo en `re.sub()`)

Banderas en Python (`re`)