martes, 23 de abril de 2019

Simulaciones - La distribución binomial


Continuamos la serie de entradas sobre simulaciones de distribuciones estadísticas. Hoy llegamos a la distribución binomial. Como en toda la serie, y ese es uno de sus objetivos, usaremos la hoja de cálculo Simulador. Aunque la hayas descargado en otra ocasión, es conveniente que lo vuelvas a hacer, pues se le han añadido nuevas prestaciones, como la imitación de la máquina de Galton con probabilidad prefijada.

Se encuentra en las direcciones


Versión LibreOffice: 


y la puedes descargar para tu uso.

Distribución binomial

 Esta importante distribución se aplica a pruebas repetidas de la ley de Bernouilli


con las siguientes condiciones:

a) Se realizan experimentos repetidos del tipo Bernouilli, n en total.
b) La probabilidad p permanece constante en todos ellos
c) Cada experimento es independiente del resultado anterior.

Llamamos a n el número de intentos. Estamos interesados en estudiar el número de veces que aparece el suceso A (éxito). A su número de ocurrencias le llamaremos número de éxitos.

Por tanto la ley binomial se aplicará cuando repetimos un experimento cumpliendo las condiciones a), b) y c) establecidas y deseamos estudiar el número de éxitos que obtendremos. Son de este tipo las tiradas múltiples de monedas, de dados, de ruleta, ...

La probabilidad de obtener r éxitos en n intentos se demuestra que equivale a


En  ella el paréntesis es el número combinatorio n sobre r. Del hecho de que esta fórmula sea muy similar a la del Binomio de Newton proviene el nombre de binomial.

La media (esperanza matemática) de esta distribución viene dada por

y su varianza por


Consecuencia de esta es una fórmula que nos será muy útil, y es la de su desviación típica, que viene dada por

La distribución binomial de probabilidad p y número de intentos n se representa generalmente por B(n,p)

Puedes completar su estudio en


Uso de la hoja Simulador

 Comenzamos con un ejemplo, para estudiar la forma de plantear una simulación de este tipo. Habrá que concretar algunos parámetros, al igual que se hizo en simulaciones anteriores.

Tiramos 100 veces tres monedas. ¿En cuántas de ellas esperamos obtener tres caras?

La distribución binomial contiene decisiones automáticas en el Simulador, por lo que sólo hay que fijarle los siguientes parámetros:

·        Número filas y columnas: 100 filas y una columna (en este caso)
·        Tipo de simulación: Binomial (usa el desplegable)
·        Número de intentos: Lo escribes como parámetro A. En este caso son 3.
·        Probabilidad: Se escribe como parámetro B. Si deseas usar fracciones, escribe delante el signo =. Así, en el ejemplo escribiríamos =1/2.

El resto de parámetro lo rellena la hoja.

En la imagen observamos que ha fijado el número de intervalos en 4, para contar con el 0.


Los parámetros que no cambian se ignoran, como por ejemplo, 2 y 77.

Pulsamos sobre el botón “Simulación” y obtenemos los resultados de la simulación:

Número de veces en el que resultan tres caras:


Nos resultan 11 veces. Repetimos simulación y obtenemos 14, 16, 13, 14, 9, 17,…Esta variabilidad confirma lo peligroso de obtener conclusiones con solo 100 repeticiones. La simulación siempre es orientativa, pero se debe efectuar con más ensayos.

En este caso binomial también se pueden consultar los intervalos en la segunda hoja. Escribimos como extremos a y b el mismo número esperado de caras, 3, en la primera columna y nos devuelve el número de casos obtenido. En la imagen no aparece el 11, sino 16, porque corresponde a otra simulación:



Estudio con funciones de hoja de cálculo

Otra forma de responder a la cuestión es mediante las funciones estadísticas de Excel y Calc. Aquí estaría indicada DISTR.BINOM.N(X;N;P;Tipo) En ella escribimos los parámetros siguientes:

·        X es el punto en el que deseamos consultar la distribución, el resultado que esperamos. En este caso sería x=3, porque esperamos tres caras.
·        N es el número de intentos, que aquí también es 3.
·        P representa la probabilidad, que en monedas es 0,5
·        Tipo indica si la distribución es acumulada o no. Si su valor es 1, la distribución es acumulada y con 0 sin acumular. En el ejemplo deseamos no acumular. Sólo nos interesa el caso de 3 caras.

La escribimos en una celda y obtenemos: DISTR.BINOM.N(3;3;0,5;0)=0,125
Luego para 100 tiradas, el valor esperado sería 12,5. En la simulación obtuvimos 11, 14, 16, 13, 14, 9, 17,…Esto da idea de la variabilidad que presenta nuestra simulación.

Póquer con dados

En el juego familiar de póker con cinco dados, obtendremos póquer cuando cuatro de ellos marquen un mismo valor. Estudiaremos el caso en el que aparezcan en la primera tirada, sin comodín y sin acudir a otras tiradas, un póquer de reyes, por ejemplo. Se considera un suceso difícil. Lo simulamos:

·        Tipo: Binomial
·        Parámetro A: 5 dados
·        Parámetro B: Probabilidad 1/6 (lo escribimos como =1/6 y obtendremos 0,1666…)
·        Repeticiones: 500



Con ese número de repeticiones, no resultan en la simulación ni póquer de reyes ni repóquer:



Las frecuencias del 4 y el 5 son nulas, luego nuestra intuición de que son sucesos improbables no iba descaminada. Sobre el 500 escribimos un 2, para obligar a repetir la simulación dos veces.



Esta vez, con 1000 intentos sí se ha conseguido un póquer de reyes en una de las tiradas:


Aquí hemos trabajado con un solo valor en el resultado (reyes), pero el póquer puede salir con cualquier valor, lo que, al ser sucesos disjuntos, multiplicaría por 6 la probabilidad, pero es tan pequeña, que la simulación vale para darnos una idea de su dificultad.

Un ejemplo con intervalos

En un bombo de lotería se han introducido 100 bolas, numeradas del 00 al 99, con lo que todas las decenas figuran con 10 elementos. La probabilidad de obtener a ciegas una bola cuyo número comience por 3, será de 10/100=0,1
Imaginemos que 200 personas van sacando 10 bolas con reposición y contando las veces en las que obtienen un 3 en las decenas. ¿Cuántas de ellas esperaríamos que obtengan entre 3 y 10 éxitos?


El planteo sería:

·        Una repetición con 200 filas (200 personas)
·        Número de intentos: 10
·        Probabilidad: 1/10


Preparamos los intervalos de la segunda hoja para contar entre 3 y 10. Iniciamos la simulación y obtenemos:


Nos dan 9 casos, con una frecuencia relativa de 0,045. Fijamos ahora el experimento con 10 repeticiones (parte alta del cuadro de parámetros), pero en este caso el botón de intervalos no nos sirve, porque funciona sobre las filas de la simulación, pero no acumula. Mejor es leer las frecuencias de la tabla y sumar:



Entre 3 y 10 se han obtenido 124+17+3=144, que comparado con 2000 repeticiones nos da una frecuencia relativa de 144/2000=0,072, que parece más ajustada a la realidad que el 0,045 que obtuvimos con una sola tirada.

Podemos acudir a la función DISTR.BINOM.N(). En este caso restaremos la función acumulada en 10 de la acumulada en 2:

DISTR.BINOM.N(10;10;0,1;1)-DISTR.BINOM.N(2;10;0,1;1)=0,07019
Se observa, como era de esperar, que la frecuencia en la simulación repetida (0,072) se acercaba más al valor teórico (0,07019).

Aproximación a la normal

Se sabe que la distribución binomial se acerca a la normal bajo ciertas condiciones. Puedes repasar esta cuestión en 


Normalmente se piensa en la distribución normal cuando el valor de p es cercano a 1/2 y N tiende a infinito, aunque se suele obtener una buena aproximación práctica para N>30. Todo esto es un poco empírico, y se basa en el Teorema de Moivre, que puedes consultar en 


Ahí también se incluyen otros consejos para poder usar esta aproximación. Sólo queda indicar que la distribución normal límite poseería la misma media y desviación típica que la binomial.

Para ilustrar este ajuste, elegimos una binomial de 10 intentos y probabilidad 0,5, la simularemos en 100 filas con 10 repeticiones:



Con estas condiciones la media es 5 y la desviación típica 1,5811. Procedemos a la simulación y obtenemos, efectivamente, un resultado que se aproxima a la distribución normal:



Podemos estudiar el ajuste mediante la función =DISTR.NORM.N(x;M;D;0), que da la frecuencia para un valor dado en la distribución normal de media M y desviación típica D. Hemos incrementado el número de elementos a 1000, dejando en 10 el de repeticiones. A la tabla de frecuencias le hemos añadido esta función de Excel, con el siguiente resultado:



El buen ajuste se puede observar entre la columna de simulación y la de normal. La columna intermedia proviene de la función =DISTR.NORM.N(x;5;1.5811;0) y la última se ha creado multiplicando por N, que aquí es 10000.

Gráficamente se percibe mejor el buen ajuste:



La máquina de Galton como curiosidad

En la nueva versión del Simulador se ha añadido una hoja nueva con el experimento de Galton. Este modelo ya se ofrecía en nuestro curso de Estadística y en otros materiales, pero la nueva versión admite fijar una probabilidad que no tiene que ser necesariamente 1/2. De esta forma se puede visualizar una distribución binomial no centrada en la máquina. Lo puedes ver en esta imagen, correspondiente a p=0,7:



Observamos su sesgo hacia la derecha y su ajuste razonable a la distribución binomial teórica. En el gráfico se observa mejor el ajuste:



Con esto dejamos el tema de la simulación binomial. Se podía extender algo más, pero alargaría el texto.




No hay comentarios: