Continuamos la serie de entradas sobre simulaciones de
distribuciones estadísticas. Hoy llegamos a la distribución binomial. Como en
toda la serie, y ese es uno de sus objetivos, usaremos la hoja de cálculo Simulador. Aunque la hayas descargado en
otra ocasión, es conveniente que lo vuelvas a hacer, pues se le han añadido
nuevas prestaciones, como la imitación de la máquina de Galton con probabilidad
prefijada.
Se encuentra en las direcciones
Versión Excel: http://www.hojamat.es/estadistica/tema1/open/simulador.xslm
Versión LibreOffice:
y la puedes descargar para tu uso.
Distribución binomial
con las siguientes condiciones:
a) Se realizan experimentos repetidos del tipo Bernouilli, n
en total.
b) La probabilidad p permanece constante en todos
ellos
c) Cada experimento es independiente del resultado anterior.
Llamamos a n el número de intentos.
Estamos interesados en estudiar el número de veces que aparece el suceso A
(éxito). A su número de ocurrencias le llamaremos número de éxitos.
Por tanto la ley binomial se aplicará cuando repetimos un
experimento cumpliendo las condiciones a), b) y c) establecidas y deseamos
estudiar el número de éxitos que obtendremos. Son de este tipo las tiradas
múltiples de monedas, de dados, de ruleta, ...
La probabilidad de obtener r éxitos en n
intentos se demuestra que equivale a
En ella el paréntesis es el número combinatorio n
sobre r. Del hecho de que esta fórmula sea muy similar a la del Binomio de
Newton proviene el nombre de binomial.
La media (esperanza matemática) de esta distribución viene
dada por
y su varianza por
Consecuencia de esta es una fórmula que nos será muy útil, y
es la de su desviación típica, que viene dada por
La distribución binomial de probabilidad p y número
de intentos n se representa generalmente por B(n,p)
Puedes
completar su estudio en
Uso de la hoja Simulador
Tiramos 100 veces tres
monedas. ¿En cuántas de ellas esperamos obtener tres caras?
La distribución binomial contiene decisiones automáticas en
el Simulador, por lo que sólo hay que
fijarle los siguientes parámetros:
·
Número filas y columnas: 100 filas y una columna
(en este caso)
·
Tipo de simulación: Binomial (usa el
desplegable)
·
Número de intentos: Lo escribes como parámetro A.
En este caso son 3.
·
Probabilidad: Se escribe como parámetro B. Si
deseas usar fracciones, escribe delante el signo =. Así, en el ejemplo
escribiríamos =1/2.
El resto de parámetro lo rellena la hoja.
En la imagen observamos que ha fijado el número de
intervalos en 4, para contar con el 0.
Los parámetros que no cambian se ignoran, como por ejemplo,
2 y 77.
Pulsamos sobre el botón “Simulación” y obtenemos los
resultados de la simulación:
Número de veces en el que resultan tres caras:
Nos resultan 11 veces. Repetimos simulación y obtenemos 14,
16, 13, 14, 9, 17,…Esta variabilidad confirma lo peligroso de obtener
conclusiones con solo 100 repeticiones. La simulación siempre es orientativa,
pero se debe efectuar con más ensayos.
En este caso binomial también se pueden consultar los
intervalos en la segunda hoja. Escribimos como extremos a y b el mismo número
esperado de caras, 3, en la primera columna y nos devuelve el número de casos
obtenido. En la imagen no aparece el 11, sino 16, porque corresponde a otra
simulación:
Estudio con funciones de hoja de cálculo
Otra forma de responder a la cuestión es mediante
las funciones estadísticas de Excel y Calc. Aquí estaría indicada DISTR.BINOM.N(X;N;P;Tipo)
En ella escribimos los parámetros siguientes:
·
X es el punto en el que deseamos consultar la
distribución, el resultado que esperamos. En este caso sería x=3, porque
esperamos tres caras.
·
N es el número de intentos, que aquí también es
3.
·
P representa la probabilidad, que en monedas es
0,5
·
Tipo indica si la distribución es acumulada o
no. Si su valor es 1, la distribución es acumulada y con 0 sin acumular. En el
ejemplo deseamos no acumular. Sólo nos interesa el caso de 3 caras.
La escribimos en una celda y obtenemos: DISTR.BINOM.N(3;3;0,5;0)=0,125
Luego para 100 tiradas, el valor esperado sería
12,5. En la simulación obtuvimos 11, 14, 16, 13, 14, 9, 17,…Esto da idea de la
variabilidad que presenta nuestra simulación.
Póquer con dados
En el juego familiar de póker con cinco dados, obtendremos
póquer cuando cuatro de ellos marquen un mismo valor. Estudiaremos el caso en
el que aparezcan en la primera tirada, sin comodín y sin acudir a otras tiradas,
un póquer de reyes, por ejemplo. Se considera un suceso difícil. Lo simulamos:
·
Tipo: Binomial
·
Parámetro A: 5 dados
·
Parámetro B: Probabilidad 1/6 (lo escribimos
como =1/6 y obtendremos 0,1666…)
Las frecuencias del 4 y el 5 son nulas, luego nuestra
intuición de que son sucesos improbables no iba descaminada. Sobre el 500
escribimos un 2, para obligar a repetir la simulación dos veces.
Esta vez, con 1000 intentos sí se ha conseguido un póquer de
reyes en una de las tiradas:
Aquí hemos trabajado con un solo valor en el resultado
(reyes), pero el póquer puede salir con cualquier valor, lo que, al ser sucesos
disjuntos, multiplicaría por 6 la probabilidad, pero es tan pequeña, que la
simulación vale para darnos una idea de su dificultad.
Un ejemplo con intervalos
En un bombo de lotería se han introducido 100 bolas,
numeradas del 00 al 99, con lo que todas las decenas figuran con 10 elementos.
La probabilidad de obtener a ciegas una bola cuyo número comience por 3, será
de 10/100=0,1
Imaginemos que 200 personas van sacando 10 bolas con
reposición y contando las veces en las que obtienen un 3 en las decenas.
¿Cuántas de ellas esperaríamos que obtengan entre 3 y 10 éxitos?
El planteo sería:
·
Una repetición con 200 filas (200 personas)
·
Número de intentos: 10
Preparamos los intervalos de la segunda hoja para contar
entre 3 y 10. Iniciamos la simulación y obtenemos:
Nos dan 9 casos, con una frecuencia relativa de 0,045.
Fijamos ahora el experimento con 10 repeticiones (parte alta del cuadro de
parámetros), pero en este caso el botón de intervalos no nos sirve, porque
funciona sobre las filas de la simulación, pero no acumula. Mejor es leer las
frecuencias de la tabla y sumar:
Entre 3 y 10 se han obtenido 124+17+3=144, que comparado con
2000 repeticiones nos da una frecuencia relativa de 144/2000=0,072, que parece
más ajustada a la realidad que el 0,045 que obtuvimos con una sola tirada.
Podemos acudir a la función DISTR.BINOM.N(). En este caso
restaremos la función acumulada en 10 de la acumulada en 2:
DISTR.BINOM.N(10;10;0,1;1)-DISTR.BINOM.N(2;10;0,1;1)=0,07019
Se observa, como era de esperar, que la frecuencia en la
simulación repetida (0,072) se acercaba más al valor teórico (0,07019).
Aproximación a la normal
Se sabe que la distribución binomial se acerca a la normal
bajo ciertas condiciones. Puedes repasar esta cuestión en
Normalmente se piensa en la distribución normal cuando el
valor de p es cercano a 1/2 y N tiende a infinito, aunque se suele obtener una
buena aproximación práctica para N>30. Todo esto es un poco empírico, y se
basa en el Teorema de Moivre, que puedes consultar en
Ahí también se incluyen otros consejos para poder usar esta
aproximación. Sólo queda indicar que la distribución normal límite poseería la
misma media y desviación típica que la binomial.
Para ilustrar este ajuste, elegimos una binomial de 10
intentos y probabilidad 0,5, la simularemos en 100 filas con 10 repeticiones:
Con estas condiciones la media es 5 y la desviación típica
1,5811. Procedemos a la simulación y obtenemos, efectivamente, un resultado que
se aproxima a la distribución normal:
Podemos estudiar el ajuste mediante la función =DISTR.NORM.N(x;M;D;0),
que da la frecuencia para un valor dado en la distribución normal de media M y
desviación típica D. Hemos incrementado el número de elementos a 1000, dejando
en 10 el de repeticiones. A la tabla de frecuencias le hemos añadido esta
función de Excel, con el siguiente resultado:
El buen ajuste se puede observar entre la columna de
simulación y la de normal. La columna intermedia proviene de la función
=DISTR.NORM.N(x;5;1.5811;0) y la última se ha creado multiplicando por N, que
aquí es 10000.
La máquina de Galton como curiosidad
En la nueva versión del Simulador
se ha añadido una hoja nueva con el experimento de Galton. Este modelo ya se
ofrecía en nuestro curso de Estadística y en otros materiales, pero la nueva
versión admite fijar una probabilidad que no tiene que ser necesariamente 1/2.
De esta forma se puede visualizar una distribución binomial no centrada en la
máquina. Lo puedes ver en esta imagen, correspondiente a p=0,7:
Observamos su sesgo hacia la derecha y su ajuste razonable a
la distribución binomial teórica. En el gráfico se observa mejor el ajuste:
Con esto dejamos el tema de la simulación binomial. Se podía
extender algo más, pero alargaría el texto.