TecnoXplora » CienciaXplora » Divulgación

PESADILLA EN LA EPA

¿Qué diría Chicote de la cocina del INE?

A menudo, cuando se habla de la cocina de los datos de las encuestas realizadas por ejemplo por el Instituto Nacional de Estadística, hay quien sospecha que estos métodos se usan para manipular los resultados de las mismas. Se podría hacer para eso, claro, pero el cocinar los datos de una encuesta también sirve para sacar conclusiones más representativas de la realidad. Pero lo que ha cambiado recientemente en la EPA no ha sido la receta sino la cantidad de ingredientes.

Ilustración de Raquel Garcia Ulldemollins CienciaXplora

Entre la infinidad de noticias que se han publicado últimamente, aparte del maravilloso descubrimiento en Harvard que nos recuerda que “nuestro universo, y todos los posibles universos, son préstamos que nos hace el vacío”, se ha hablado mucho, bien y mal, de la nueva encuesta de población activa, la EPA. Se ha cuestionado si las modificaciones que se han introducido son lógicas y/o necesarias, e incluso, hay quien ha asegurado que no es más que una maniobra del Gobierno para maquillar datos.

Mi opinión es que sí, es necesaria y que no, no se ha hecho para maquillar a nadie. Ya ven, no siempre ataco al gobierno.

Vamos a ver qué pasa en las cocinas del INE, al más puro estilo Chicote.

Cuando se realiza una encuesta (o sondeo), se parte de una muestra de la población ya que no es posible encuestar a todos los individuos. A partir de los datos obtenidos en dicha muestra se trata de extraer qué ocurre en el total de la población.

Puede parecer lógico que si la muestra es lo suficientemente representativa, por ejemplo, un 26% de los encuestados manifiestan estar en paro, se deduzca inmediatamente que un 26% de la población total española está en dicha tan poco deseable situación. Sin embargo, los datos obtenidos en crudo suelen ser cocinados y, por tanto, modificados en alguna medida. Más de uno, como hemos apuntado, puede interpretar que con ello se deforma la realidad y que se trata de presentar unos datos que no son (y es posible que ello haya ocurrido en varias ocasiones con motivo de sondeos de opinión políticos), pero, en realidad, lo que se trata es de acercarse más a la realidad ¿Lo vemos con un ejemplo sencillo?

Si pensamos en la EPA, la muestra que se toma es enorme: unos 180.000 individuos, lo cual le da una gran fiabilidad. Ahora, supongamos, por simplificar, que en esa muestra el 50% exacto de los individuos sean hombres y el 50% mujeres; supongamos también que de los primeros un 25% esté en paro y de las segundas un 27%. Con estos datos, la media en la muestra extraída es de, por tanto, un 26%. pero el INE cocina esos datos de la siguiente forma: se sabe que aproximadamente el 51% de la población española son mujeres (en realidad es algo menos, pero nos vale como ejemplo para hacer cuentas más sencillas) y que el 49% son hombres. Con esto, el INE lo que asume es que el 27% del total de las mujeres (que es el 51% de la población) está en paro y que el 25% de los hombres (que representan al 49% de la población) lo está, ello nos dice que el total de la población en paro sería:

Paro=[(27x51)+(25x49)] / 100=26,02

Así obtenemos un 26,02% de cifra de paro que es ligeramente superior al 26% que se obtendría sin cocina.

Esto es teniendo en cuenta solo un factor de reponderación. En realidad, el INE tiene en cuenta varios factores: la edad, el sexo, las regiones... en función de datos elaborados también con el censo. Además, desde 2005, también se aplica la distinción por nacionalidad para la población mayor de 16 años.

¿Cómo se hace cuando existe más de un factor de reponderación? La respuesta más simple es que se le asigna un factor de importancia a cada uno de esos factores. Tratemos de verlo continuando con nuestro ejemplo.

Supongamos que, además del género que hemos comentado antes, queremos tener en cuenta la nacionalidad de origen de los entrevistados y que hemos obtenido que entre los inmigrantes el paro es del 30% y entre los nacidos en España es del 25%. Si en la muestra, el 20% de la población es inmigrante, ello nos da una media del 26% de paro (en la muestra) que ya habíamos comentado antes, sin más que hacer las cuentas:

Paro=[(30x20)+(25x80)]/ 100 =26%

Pero si la población inmigrante es en realidad del 15% (algo menos), lo que nos queda, en la muestra, es:

Paro=[(30x15)+(25x85)]/ 100 =25,75%.

Ahora tenemos que reponderar para extraer los datos de toda la población y no solo de la muestra: lo que hacemos es otorgar, por ejemplo, un 80% del peso al género y un 20% a la población inmigrante y los datos después de esta cocina serían:

Paro=[(26,02x80)+(25,75x20)]/100=25,966%

Lo que ha ocurrido y ha sido noticia con la EPA, es que el INE, al utilizar unos datos de censo más actualizados, ha cambiado el porcentaje de la población inmigrante (que tiene más paro) y por tanto, los datos obtenidos de su cocina varían ligeramente. Y sí, los datos de paro bajarán, pero es que se está yendo gente desempleada del país. Y no, no solo se están yendo inmigrantes.