Autor: Rafael Peñaloza
Les quiero hablar sobre las probabilidades y sus primos cercanos, los porcentajes. Son prácticamente nuestros amigos de la infancia: nos los enseñan desde pequeños y los oímos nombrar casi a diario. Aparecen en los noticieros, en los deportes, la ciencia, la política, hasta en las novelas románticas. Y a pesar de todo, tendemos a interpretarlos mal cuando nos los topamos de frente. Por ejemplo, muchos confundimos una preferencia electoral del 56% con una probabilidad de ganar las elecciones del 56% (veremos en el futuro la diferencia).
Esta serie de artículos es un esfuerzo por entender mejor algunas de las nociones principales asociadas a las probabilidades y sus implicaciones, en particular cuando se trata de estudiar las propiedades de una población. Empezaremos con los principios más simples, esos que aprendimos en primaria, y poco a poco nos adentraremos en temas más complejos. Si están listos, acompáñenme en esta aventura.
Para entrar en calor, nos plantearemos un pequeño problema que motivará las primeras entradas de esta serie.
Parte 1: las proporciones
Imaginémonos por un segundo que una nueva ley exige a todas las escuelas que los alumnos zurdos tengan una banca especial. No queriendo desperdiciar recursos, una escuela quiere saber cuántas bancas tiene que ordenar.
Para responder a esta pregunta, entramos en el primer salón. El método más simple es preguntar a todos los alumnos con qué mano escriben. En este salón contamos 3 zurdos entre 37 alumnos. La respuesta a la pregunta principal es obvia: comprar 3 bancas especiales para esta aula.
Ahora, si queremos saber cuántas bancas sirven para toda una escuela, podríamos ir a preguntar a cada aula, y lo mismo se puede hacer en todas las escuelas. Pero este proceso no escala bien. El costo de ir a pedir la información directamente crece, y algunos problemas de compilación de datos (de los que hablaremos en las entradas siguientes) se vuelven evidentes. ¿Podemos, en cambio, aprovechar la información que ya tenemos para resolver el problema?
Si 3 de 37 alumnos son zurdos, pensando que la asignación de los alumnos a aulas no depende de la mano con que escriben, podemos extrapolar y decir que aproximadamente 8.1 de cada 100 alumnos es zurdo; o en otras palabras, que el porcentaje de zurdos es 8.1%.
Este número es importante, y nos ayuda a calcular (o al menos aproximar) el número de bancas que hay que comprar. Pero ¿qué tan preciso es? Si la escuela tiene 100 alumnos, ¿necesitará 8 o 9 bancas? ¿Y si tiene 105 alumnos? Notemos que en este caso, cualquier número de alumnos que no sea múltiplo de 37 nos pedirá un número fraccionario de bancas y vamos a tener que decidir hacia qué lado errar.
Pero hay otro detalle que seguido se pierde de vista. El porcentaje que encontramos depende completamente del hecho que observamos a esos 37 individuos que se encontraban en el aula en ese momento. Si la clase hubiera tenido 38 alumnos, o el día que preguntamos por la mano con la que escriben uno de ellos fuera ausente, el porcentaje habría sido completamente distinto, y las respuestas a las preguntas anteriores cambiarían también.
Específicamente, si un 38-avo estudiante escribiera con la mano derecha, entonces el porcentaje de zurdos bajaría a 7.9%, por lo que la escuela con 100 estudiantes podría pensar que comprar 8 bancas es suficiente. Por el otro lado, si uno de los zurdos no hubiera estado presente el día que se calculó el dato, entonces solo 2 de 36 alumnos serían considerados zurdos, dando un porcentaje mucho más bajo (de approximadamente 5.6%) y la escuela con 100 estudiantes prodría pensar en comprar solo 6 bancas en total.
Igualmente, si dos alumnos se intercambiaran escuela, las proporciones observadas podrían cambiar. Pero entonces ¿no podemos saber nada sin preguntar a todos los alumnos? Bueno, en realidad sí que podemos, pero tenemos que entender qué significan estos números y en qué circunstancias se pueden aplicar.
Para entender las proporciones y usarlas correctamente, necesitamos primero entender algunos conceptos sobre procesos aleatorios e introducir las ideas principales detrás de las técnicas de muestreo. Esto nos ayudará a entender el efecto del azar en la selección de los 37 alumnos que observamos, y la proporción de zurdos entre ellos.
Espero que este ejemplo simple haya despertado su interés, para acompañarme en las próximas entradas, donde estudiaremos estos temas. En el próximo artículo hablaremos específicamente de la diferencia entre la proporción de una población con una propiedad (por ejemplo, ser zurdo) y la proporción de una pequeña muestra con la misma propiedad. También veremos como la primera se puede deducir de la segunda. Esto nos ayudará a resolver el problema de las bancas, y nos conectará a otras aplicaciones como las elecciones.
Acerca del autor:
Rafael Peñaloza es un profesor de inteligencia artificial en la Universidad de Milano-Bicocca en Italia.
Editores: Emiliano Cantón, Ximena Bonilla