domingo, 27 de mayo de 2012

Este cromo lo tengo repe (2)

 (Esta es nuestra segunda entrada con la que participamos en la edición 3.1415 del Carnaval de Matemáticas coordinado en esta ocasión por el blog Gaussianos)


Simulación de una colección de cromos


En la entrada anterior realizamos una aproximación a las distribuciones que surgen en las colecciones de cromos. En esta otra intentaremos acercarnos algo más al problema mediante una simulación cromo a cromo. Seguiremos pensando en términos de sobres completos, pero simularemos la aparición de cada cromo individualmente.


Una de las ventajas que tiene la hoja de cálculo es que toda ella es una matriz  de datos, con lo que nos ahorramos dimensionar variables tipo array, ya que las tenemos delante de nuestra vista. Para simular una colección de cromos, lo primero que confeccionaremos es una lista de ellos numerados del 1 al total de la colección. Posteriormente figurarán junto a ellos el total de repetidos que nos han salido.




En la imagen se ha elegido la columna A para la lista de cromos y la B para sus frecuencias de aparición.


Una vez preparada la lista, procederemos a simular la apertura de un sobre. No cansaremos a los lectores con códigos, pero sí señalaremos que los pasos de simulación necesarios son:
  •  Se simula la aparición de cada cromo nuevo. Suponemos que no hay malicia en la distribuidora y que todos van saliendo de forma equiprobable.
  •  Una vez tengamos el sobre simulado, desecharemos aquellos conjuntos en los que hay cromos repetidos, porque parece ser que esto no suele ocurrir.
  •  Admitida la composición del sobre, recorreremos la lista de los cromos que ya tenemos. Si su frecuencia es cero, los consideramos nuevos y se incorporan a la lista de los que tenemos y en caso contrario se consideran repetidos. En ambos casos se incrementa la frecuencia.
Este proceso va bastante rápido, y se puede observar la composición de cada sobre nuevo y la evolución de la lista.




Como observarás en la imagen, se pueden crear contadores para ver los cromos que vamos teniendo, los que nos faltan y los repetidos. También, aunque después no lo hemos visto muy interesante, la máxima frecuencia de repetición que se observa en la simulación. En la imagen vemos que un cromo al menos ha aparecido 9 veces.


En la dirección hojamat.es/blog/cromos.xlsm  tienes la hoja de Excel que contiene esta simulación. En la parte superior se puede realizar el estudio por medias de la entrada anterior y en la inferior, además de simular la compra de X cromos, es posible planificar una serie de simulaciones para equilibrar los resultados. Si la descargas, recuerda que los datos para la simulación son los de la parte superior.


Aquí nos limitaremos a presentar los resultados.


¿Confirma la simulación los resultados aproximados del estudio por medias?
Pues en gran parte sí. En la siguiente tabla comparamos los datos obtenidos por medias binomiales en la entrada anterior y los procedentes de series de 50 simulaciones cada una.



Sobre
Total
Sobres en cada compra
5
250
10




Sobres
Medias
Simulación
Diferencia
0
0
0
0
10
45
45,74
0,74
20
82
83,64
1,64
30
112
114,52
2,52
40
137
137,96
0,96
50
157
159,16
2,16
60
174
176,78
2,78
70
187
190,56
3,56
80
198
201,82
3,82
90
207
208,96
1,96
100
214
216,38
2,38
110
220
223,22
3,22
120
225
227,82
2,82
130
229
232,22
3,22
140
232
235,26
3,26
150
235
238,18
3,18
160
237
239,82
2,82
170
239
242,38
3,38
180
241
243,54
2,54


Las diferencias son muy pequeñas, nunca superiores a 4 cromos, lo que da validez a la aproximación por medias, teniendo en cuenta que tampoco la simulación tiene carácter exacto (aquí todo es azar). También aquí son bastante aproximadas las funciones exponenciales que creamos para explicar la evolución de la colección.


Hay un punto interesante: La esperanza de obtener cromos nuevos en cada sobre es ligeramente superior a la que nos daría la fórmula E=mp de la media binomial con probabilidad constante. Esto es debido a que cada cromo que aparece, si no lo tenemos, disminuye la probabilidad del siguiente y aumenta la de obtener el siguiente repetido. Si nos sale repetido, no altera las probabilidades, porque lo guardamos en otra parte. 


Hemos usado este hecho para estudiar todos los casos que se pueden dar en la apertura de un sobre de 4 cromos en una colección de 200 si ya tenemos 72. Si lees la tabla es natural que te “marees”, porque no es fácil seguir cada caso, pero al final resulta que la media bien calculada es un 1,3% superior a la obtenida sin cambiar las probabilidades:




De este orden son las diferencias entre las dos tablas que hemos confeccionado, por lo que una valida a la otra.
¿Se atreve alguien a sacar una fórmula algebraica que resuma esta tabla? Yo no, pero parece que alguien ha obtenido algo similar.


Resumen de hechos notables


Destacamos algunos hechos observados con ambos métodos (media binomial y simulación) y dejamos que los lectores intenten justificarlos con los medios que les hemos propuesto.


(1) Si compras el mínimo de sobres de una colección (cociente entre el TOTAL y el SOBRE) sólo conseguirás completar un 63% de la misma (en realidad, unas décimas más, entre 63,2% y 63,8% aproximadamente según los casos. Cerca del valor de 1-1/e ¿por qué?)


(2) El momento de compra en el que se igualan el número de cromos que tienes con los que te faltan (mitad de la colección) es cuando has adquirido el 69% de los cromos. (cerca del valor de 100*LN(2) ¿de dónde sale esa estimación?). Los papás se han gastado un 19% más de lo previsto. A partir de ahora saldrán más repetidos que nuevos.


(3) Un momento crítico ocurre cuando al abrir sobres nuevos hay una gran posibilidad de que todos sus cromos estén ya repetidos. Esto se dará cuando la esperanza E en un sobre no llegue a la unidad. Una fórmula aproximada para encontrar ese punto crítico es 






Por ejemplo, en una colección de 240 cromos que vienen en sobres de 6, cuando lleves comprados 71 sobres comenzarán los problemas.


(4) Por último, una fórmula medio empírica para relacionar el porcentaje de la colección P que deseas alcanzar y los sobres comprados:


  


Si la aplicas, no te asustes, y piensa en ir cambiando cromos.


Estos cálculos los hemos comprobado con la simulación y en realidad son algo más favorables, por ese 1,3% de diferencia que existía entre calcular por medias y simular.


Esperemos que con estas ideas iniciales alguien quiera llegar más lejos. Es un buen tema de investigación.