Autor: Rafael Peñaloza
Imaginemos que queremos comparar dos métodos didácticos para averiguar cuál es mejor. Para evitar preocuparnos por un periodo de adaptación a los métodos, simplemente tomamos dos escuelas que ya usan cada uno de ellos, y enseñamos a los alumnos un nuevo tema. Al final, hacemos un examen, y vemos cuántos alumnos pasan.
El resultado nos dice que con el Método 1, 90% de los alumnos pasaron, mientras que sólo el 80% de aquellos que usaron el Método 2 tuvieron éxito.
De este simple experimento, nos nace la sospecha que el Método 1 es mejor. Para confirmar que esto es así, repetimos el experimento al año siguiente, usando dos escuelas distintas para ampliar la población de prueba. El resultado es el siguiente: con el Método 1, 70% pasó, y con el Método 2, sólo el 68% aprobó. De nuevo, confirmamos que el Método 1 resulta ser más adecuado para aprender.
En vista de que los dos experimentos confirman los resultados mutuamente, concluimos después de este análisis que tenemos evidencia más fuerte para concluir los beneficios del Método 1. ¿Correcto? Pues, aunque parezca increíble, la respuesta es ¡no! De hecho, es completamente plausible que los mismos datos que tenemos sugieran que el Método 2 es mejor. Para entender cómo esto es posible, necesitamos entrar en mayor detalle.
Primero, resumamos los resultados anteriores, pero agregando los valores reales del número de alumnos que usaron cada método y el total de éxitos.
Método 1 | Método 2 | |
---|---|---|
Experimento 1 | 90/100: 90% | 240/300: 80% |
Experimento 2 | 210/300: 70% | 68/100: 68% |
TOTAL | 300/400: 75% | 308/400: 77% |
Como podemos ver, si en lugar de ver los grupos separados por los experimentos, los juntamos y analizamos los totales, entonces el Método 2 resulta más efectivo, con un éxito del 77% contra el 75% del Método 1. O sea que la suma de dos resultados parciales no nos garantiza nada sobre el resultado total.
Este caso tan extraño es conocido como la Paradoja de Simpson, y es un dolor de cabeza cuando se intenta acumular resultados parciales, como sucede muy seguido en estudios estadísticos. Un ejemplo, como ya vimos, es cuando repetimos un experimento varias veces, intentando confirmar (o rechazar) alguna hipótesis, como sucede en los análisis clínicos para verificar que una nueva medicina es realmente efectiva y a la vez no causa otros daños. Pero también surge en experimentos individuales, cuando los datos son divididos en grupos que pueden parecer naturales. Un famoso caso surgió cuando un grupo de investigadores analizó los efectos de fumar en un grupo de mujeres que fueron divididas de acuerdo a su grupo de edad. Dependiendo de si se veían los datos agrupados o no, se llegaba a conclusiones opuestas respecto a mortalidad aumentada por el uso de tabaco. Una de las razones que llevan a esta paradoja reside en comparar grupos de tamaños muy distintos. Si regresamos al ejemplo delos experimentos de métodos de enseñaza, comparamos un grupo de 300 personas contra uno de 100. Obviamente, los resultados del grupo grande tienen más peso que los del chico. Así, en el Método 2, el 80% observado en el primer grupo no resulta muy afectado por el 68% del segundo. En cambio, el 90% del primer grupo del Método 1 se reduce drásticamente por el 70% del segundo grupo.
Más allá del tamaño de las muestras, observar la Paradoja de Simpson puede ser muy útil para entender un poco mejor la relación entre los datos. En general, quiere decir que existe un factor de confusión; es decir, una variable que influye en los resultados de los métodos, pero que no estamos observando con nuestros experimentos.
Un ejemplo de una posible explicación a las observaciones (pero que obviamente requiere más experimentos para ser verificada) es que haya una pre-selección de los individuos sobre el método didáctico utilizado. En este caso, podemos imaginar que el Método 2 es un método experimental, que se usa exclusivamente en escuelas de élite donde aceptan solamente alumnos avanzados. En estas condiciones, aunque el Método 2 sea menos efectivo, los experimentos muestran globalmente lo contrario, dado que los alumnos que lo usaron empezaban con ventaja. Obviamente, así como ésta, hay muchas otras posibles explicaciones que se deben analizar en detalle.
La pregunta lógica en este momento es: ¿cuáles el resultado correcto? ¿Debemos confiar más en los datos agrupados o en los datos globales? Desafortunadamente no hay una respuesta general. Algunas veces será una, y otras será la otra. Y para saberlo, es importante analizar la situación a fondo, y si es posible, hacer más experimentos. En este sentido, la estadística es tanto art como ciencia.
Sin embargo,si tenemos que dar una regla, yo la resumiría así: si la Paradoja de Simpson llegas a encontrar, el factor de confusión debes buscar.
Así que ya saben. Estén siempre atentos a factores externos (inobservados) que puedan influir en los resultados obtenidos. Y si ven aparecer esta paradoja, ¡hágannoslo saber en los comentarios!
Acerca del autor
Rafael Peñaloza es un profesor de ciencia de datos en la Universidad de Milano-Bicocca en Italia.
Editores: Emiliano Cantón, Ximena Bonilla