El déficit de rigor estadístico en la blogosfera española

Uno de los aspectos más preocupante de la blogosfera española y las redes sociales es el déficit de rigor estadístico que manifiesta un número determinado de “profesionales” que utilizan datos basados en pseudo-informes elaborados por consultoras, empresas de marketing o por otros tipos de empresas, que en base a encuestas elaboradas con escaso o nulo rigor técnico en los procedimientos para  la elaboración de las muestras, para establecer unas conclusiones sobre unos determinados hechos o tendencias que se suelen extrapolar como hechos o tendencias generales.

Hace unos meses escribí una entrada criticando el caso del informe de Infoempleo por las conclusiones de un informe basado en una encuesta sin ningún fundamento estadístico y que tuvo una cierta difusión en las redes sociales y en algún que otro medio de comunicación convencional.

Hoy estaba leyendo un artículo de Dolors Reig, una psicóloga social muy activa en el mundo 2.0, en el cual ponía el énfasis en el poco interés que tenían los “conectados”, en 1983, sobre la utilidad social de estar conectados. Pues bien, en dicho artículo publicado en su blog, nos encontramos con el siguiente párrafo: “Así, en septiembre de 1983, pocos años antes de la invención de la WWW, la encuesta de una compañía de teléfonos sobre “El impacto de la tecnología en la sociedad” (Southern New England Telephone presents the road after 1984 : the impact of technology on society, de Louis Harris and Associates, Inc.), preguntaba a una muestra representativa de norteamericanos cuántos tenían computadoras en casa. Eran el 10%. De estos, el 14% decía transmitir datos a través de la línea telefónica con ellas, lo que sitúa la penetración de lo que era la  internet popular  en aquel momento en el 1,4%.”

Si analizamos la interpretación de los datos, en el momento que se afirma que la muestra es representativa de los norteamericanos, los datos se deben extrapolar al universo de todos los norteamericanos. A partir de esta consideración, se afirma que el 10% de los norteamericanos tenían computadoras en casa. Es decir, según el censo de población de los EE.UU. en los años 80 del siglo pasado, esta afirmación conlleva que estaríamos hablando de unos 23 millones de computadoras. Es decir una inmensa barbaridad como dato. Aunque no dispongo del censo de ordenadores personales en aquella época, no es difícil determinar que la base instalada de ordenadores personales en los hogares norteamericanos no superaría los 250.000 si consideramos que a finales de 1983, la base instalada del IBM-PC en todo el mundo era de unas 136.000 unidades. Estamos hablando del líder absoluto del ordenador personal en aquella época. A éstos les añadimos unas cuantas decenas de miles de Apples, Comodores, Altarís y otros. Sin olvidar que un ordenador personal, como el IBM-PC costaba más de 2.500 dólares, una fortuna en aquella época.

Sobre  la afirmación de un 1,4% de penetración de la Internet popular de aquella época, aquí nos encontramos con otros dos errores, tanto en la interpretación de los datos, como en la propia naturaleza de la red internet y su evolución histórica. Decir que en 1983 la penetración de Internet era del 1,4% en los Estados Unidos, estaríamos hablando de unos 3,2 millones de usuarios. Según la ITU, en el año 1990, es decir siete años más tarde, el número de usuarios de Internet en todo el mundo era de unos 2,6 millones.

En 1983, se empezó a gestar la red Internet cuando adquiere su condición de civil al desagregarse de ARPANET la red para usos militares MILNET y su integración con la Red de información del Departamento de Defensa de los Estados Unidos creada el año anterior.  En aquel año ARPANET, para usos civiles únicamente contaba con 45 nodos.  Tres años después, en 1986, la National Science Foundation crea la red NSFNET para la conexión de los diferentes centros informáticos equipados con  los superordenadores de aquella época  con el fin de facilitar el acceso de la comunidad científica interesada en el cálculo intensivo numérico. En febrero de 1986, únicamente estaban conectados 2.000 ordenadores a la NSFNET. La red NFSNET se constituyó en la heredera de la red ARPANET, la cual dejó de existir en 1990, y se convirtió en la infraestructura de transmisión de alta velocidad sobre la que se empezó a fundamentar el desarrollo de la red Internet tal como la conocemos ahora. Otra cuestión es que en 1983 hubiesen unas decenas de miles de conexiones vía modem punto a punto, nada que ver con el protocolo TCP/IP, para acceder a los BBS (Bulletin Board System).

P.D.: Esta observación sobre el artículo de Reig, previamente la publiqué como comentario en su blog, aunque debido a algún problema “técnico” no aparece y, por tanto, me ha parecido pertinente publicarlo en mi blog.

4 pensamientos en “El déficit de rigor estadístico en la blogosfera española

  1. dreig

    Ciertamente es imposible contrastar todas las estadísticas que una se encuentra, más teniendo en cuenta que se trata de una encuesta de opinión y no es fácil contrastar una encuesta de opinión realizada hace más de 30 años: “De estos, el 14% decía transmitir datos a través de la línea telefónica con ellas”

    En fin…insisto en que creo que deberías avisar a la Universidad de Stanford: http://searchworks.stanford.edu/view/1532288

    En el caso de mi post y por el puro rigor que exiges, poniéndome como ejemplo de la falta del mismo (muestras conocerme poco, poco), elimino esos datos, totalmente accesorios para la opinión que manifiesto.

    Saludos y a seguir trabajando de forma tan autónoma

    Responder
    1. JoseLopezPonce Autor

      Dolors, la utilización de cualquier estadística tiene que tener en cuenta la correlación entre la muestra y el universo que representa. Son innumerables la cantidad de errores que se cometen por no interpretar o filtrar correctamente los “estudios” de opiniones.

      Cuando alguien utiliza unos datos para construir su discurso, sean correctos o incorrectos, se apropia de ellos y, por tanto, es responsable de su utilización. No creo que sea yo el que tenga que avisar a la Universidad de Stanford. En mi opinión, la utilización de los datos no son accesorios, es la base donde se sustenta una tesis o una opinión asentando cátedra.

      Considero, por rigor, que no sería correcto eliminar esos datos del post. En todo caso añadir una Adenda aclarando la modificación del post.

      Por último, una persona que escribe y establece tendencias en diversos medios debe asumir la crítica argumentada. Forma parte del debate intelectual aunque, lamentablemente, en este país la crítica siempre se recibe muy mal. Todos nos podemos equivocar y, por tanto, rectificar. Reconocer un error siempre incrementa nuestra reputación.

      Un cordial saludo

      Responder
  2. Jaime

    Sin entrar en polémica. No confundamos hogar (línea fija) con habitante (censo). En casa somos un teléfono, no se cuántos ordenadores y seis personas con acceso a internet 🙂

    Responder
    1. JoseLopezPonce Autor

      Jaime, no es polémica, es una interesante aclaración que demuestra que en estadística se debe afinar hasta el mínimo detalle para que las muestras sean realmente representativas. En aquella época, tener un ordenador personal era algo exclusivo, en general, de su propietario, dudo que un ordenador de aquellos modelos lo compartiera los miembros de una familia en un hogar como hoy en día.Es cierto, lo más correcto, mejor dicho riguroso, hubiese sido referirme a hogares, sin embargo, sin tener el censo de hogares de los EE.UU. en los años 1980, seguiríamos hablando de decenas de millones de hogares y la estimación, aplicando los porcentajes de referencia, serían de millones de computadoras y conexiones a una Internet, tal como se afirmaba en el artículo de referencia, que todavía no existía para el gran público… y no las doscientas y poco mil que realmente existían y las pocas decenas de miles de conexiones vía modem punto a punto.

      Un cordial saludo

      Responder

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *