Encuestas y prudencia

FOTOLIA

LUIS GURRUTXAGADOCTOR INGENIERO INDUSTRIAL. EXRESPONSABLE DE ESTADÍSTICAS DEMOGRÁFICAS Y SOCIALES DEL EUSTAT CUANDO ARRANCÓ LA PRA EN 1984

Continuamente aparecen en los medios de comunicación resultados de diversas encuestas (encuestas públicas de diferentes materias, sondeos de opinión, etc.), que son interpretados por personas que dicen ser o parecen ser expertos en la materia: periodistas, tertulianos, políticos, sindicalistas..., siendo muy habitual que estas interpretaciones obedezcan a intereses de determinados colectivos o de determinados grupos de presión empeñados en que los resultados de esa encuesta se lean de una determinada manera, con independencia de lo que objetivamente indiquen. De ahí que en este artículo se quiera hacer una llamada a la prudencia a todos los que difunden encuestas y a tener en cuenta, para ello, una serie de consideraciones que se desgranan a continuación.

Toda encuesta basada en un diseño muestral lleva consigo un precio a pagar en cuanto a la veracidad de sus resultados. Ese precio se llama 'error de muestreo': es decir, que si el resultado directo que da le encuesta sobre una magnitud determinada a medir por la misma (por ejemplo, el número de parados en un sondeo sobre el mercado laboral en un determinado país) es 'x', no debe tomarse este valor 'x' como un dogma o como un valor inamovible, sino como el centro de un intervalo de valores delimitado inferior y superiormente por el mencionado error de muestreo. Si el valor 'x' es 100.000 y el error de muestreo es, supongamos, del 8%, eso quiere decir que el número de parados oscila entre 92.000 y 108.000. Y que, por tanto, con el mismo nivel de 'autoridad' con el que decimos que hay 100.000 parados podríamos decir que hay 94.000 o 107.000.

Y aquí viene el problema de la difusión de los datos estadísticos, ya sea para el periodista que cubre esa informació, para el analista, para el contertulio, para el representante político o el sindical correspondiente. ¿Qué decimos en relación al número de parados que existe en realidad? Habitualmente, se dice que hay 100.000 parados y se acabó, y esto en sí mismo no está mal porque, en realidad, el número de parados (con la precisión de la que luego hablaré relativa al 'nivel de confianza') se mueve en torno a esa cifra. La cual da una idea bastante exacta de cómo está el tema del paro en ese país (cuando aquí se habla de país nos podemos estar refiriendo a cualquier entidad territorial, siempre que la muestra en la que se apoya la encuesta esté diseñada para proporcionar esos datos con un error de muestreo razonable en los distintos niveles de desagregación territorial; para decir que el número de parados de un territorio determinado es de 10.000 más menos el 90%, mejor callarse).

Pero quizá sería más razonable difundir los errores de muestreo siquiera para las magnitudes más importantes -en una encuesta sobre el mercado laboral, estaríamos hablando del número de parados, pero también del número de ocupados, de la tasa de paro, de la tasa de ocupación, de la tasa de actividad y de alguna magnitud más-. Es importante señalar que para cada magnitud hay un error de muestreo diferente, que es calculable y calculado a través de fórmulas matemáticas de bastante complejidad en general.

El mayor problema cuando se difunden encuestas son las comparaciones que se hacen entre dos situaciones en las que se está analizando la misma magnitud. Pongo dos ejemplos rápidos. Imaginemos que el informe PISA, tan de moda últimamente, indica que la comunidad autónoma A tiene 510 puntos en conocimientos de una materia y que la comunidad autónoma B tiene tan solo 500 puntos. En muchos medios, uno lee que la comunidad A está mejor que la B en esa materia (en algunos sitios, incluso que «mucho mejor»). A nada que el error de muestreo que se da al elegir los alumnos que van a ser objeto del correspondiente examen sea del 3% -les garantizo que es mayor- se podría decir que es la A la que puede estar peor, porque su puntuación real podría ser de 485 y la de la B ser de 515; es decir, 30 puntos por encima. De ahí la apelación a la prudencia al leer e interpretar las encuestas.

El viernes pasado, la EPA (INE) del segundo trimestre de 2017 decía que la tasa de paro de Gipuzkoa era del 8,18% frente al 10,72% del primer trimestre, mientras que la PRA de Eustat daba los valores de 8,8% y 9,3% para la misma magnitud. Aparentemente, algo debería estar mal porque si en el primer trimestre la tasa era mayor en la EPA, ¿cómo es posible que ahora lo sea en la PRA? Si uno analiza el asunto, ve que todo entra correctamente en los errores de muestreo de estas encuestas, hechas, por otra parte, por magníficos profesionales como son los de Eustat y los del INE. Indicar aquí simplemente que el INE realiza la EPA en la CAV en 3.900 viviendas ocupadas frente a las 6.344 en el caso del Eustat.

Termino diciendo que, además, todo lo que he manifestado en este artículo y todos los resultados que se registran en una encuesta tienen un nivel 'de confianza' del 95,5%; lo que significa que existe un 4,5% de probabilidades (una de cada 22, que ya nos gustaría cuando jugamos a la Lotería) de que todos los datos estén mal y no se correspondan con la realidad. Aunque parezca catastrófico, no lo es, pues un 95,5% es objetivamente 'muchísima confianza'. Pero conviene no olvidarlo: toda prudencia en estos temas es poca. Y tampoco olviden que en una encuesta se producen 'errores ajenos al muestreo', que haberlos, haylos, aunque no son objeto de este artículo.

Fotos

Vídeos