Archivo de la etiqueta: Grafo Social

Twitter. Dime con quién andas, y te diré quién eres

Partiendo de la premisa de que la mayoría de los usuarios de Twitter siguen de forma prioritaria a la personas que se les parece, es posible determinar con bastante precisión la identidad de un usuario en función de sus contactos aunque no aporte información sobre el género, edad, afiliación política o preferencias religiosas en su perfil.

No estamos hablando de aplicar intuitivamente el refrán popular “Dime con quien andas, y te diré quién eres” que nos advierte de que según los lugares y amistades que frecuenta una persona es posible deducir sus gustos y aficiones. Es el resultado de un estudio científico, All liaisons are dangerous when all your friends are known to us, de Daniel Gayo Avello, investigador de la Universidad de Oviedo, que aplica el concepto de homofília, en el sentido del grado de similitud entre individuos que se comunican, para asignar características a cada individuo presente en un grafo social, para ello ha desarrollado el algoritmo “MCC-Splat” que se basa en una clasificación de la información personal obtenida a partir de las relaciones sociales en Twitter y, así, poder calcular la probabilidad de que un miembro tenga unas determinadas características. El algoritmo únicamente tiene en cuenta los vínculos que una persona se ha creado hacia otros individuos.

El estudio se ha basado en el tratamiento de una conjunto de datos formado por 4,98 millones de usuarios y  27,9 millones de tweets escritos en inglés en los primeros ocho meses de 2009. El algoritmo “MCC-Splat” ha tratado seis atributos personales: sexo, posicionamiento en un rango de edad,  orientación política, preferencia religiosa, rasgos étnicos y orientación sexual. De acuerdo con los resultados de la investigación, los atributos sobre la religión o el origen étnico pueden determinarse con precisión, mientras que la edad y el sexo son más aleatorios.

No es el primer estudio que analiza los perfiles de los usuarios de las redes sociales para establecer características individuales implícitas en su grafo social. Hace más de un año nos hicimos eco en este blog del proyecto Gaydar del MIT, en una entrada titulada Social Media. ¿Dr. Jekyll and Mr. Hyde? , un experimento que permite identificar la orientación sexual mediante el análisis de sus datos en Facebook y las conexiones con otros miembros a través de sus redes personales.

Corolario: Aunque no aportes información personal en las redes sociales, ésta se puede deducir a partir de las conexiones personales y conversaciones en el grafo social de un individuo.

Información de base vía: L’Atelier y Le Monde. Es bastante triste que nos tengamos que enterar del trabajo de un investigador español a través de los medios de comunicación franceses.

Una taxonomía de nuestros datos en las redes sociales

Bruce Schneier, experto en seguridad, nos presenta en una entrada de su blog una propuesta de taxonomía de los datos que se manejan en las redes sociales en la que distingue:

  • Los datos básicos para el servicio. Los datos que el usuario confía en una red social para el uso general. Datos que pueden incluir el nombre legal, la edad, estado civil o, en algún caso el número de la tarjeta de crédito, entre otros.
  • Los datos divulgados: Los datos que el propio usuario publica en sus diferentes sitios de la red: blog, fotos, mensajes, comentarios, etc.
  • Los datos confiados: Los datos que el usuario publica en sitios de terceros. Son datos similares a los divulgados, pero la diferencia es que una vez que se publican, alguien más tiene el control.
  • Los datos causales:  Los datos que los demás publican sobre uno mismo.
  • Los datos de comportamiento: Los datos que el sitio recopila sobre el usuario para controlar lo que haces y lo que te hacen. Los juegos en los que participas, los temas sobre lo que escribes, los temas sobre los que consultas, etc. Es decir, una recopilación de datos que pueden reflejar gustos o preferencias en aspectos como preferencias políticas, religiosas, sexuales, etc.
  • Los datos derivados: Los datos que se derivan a partir de los datos de los terceros que configuran el grafo social de uno. Scheneier pone como ejemplo el caso de si el 80% de tus amigos se identifican como gay, es probable que tú también seas gay. Me imagino que hace referencia al proyecto Gaydar del MIT del que ya nos hicimos eco en su día –Social Media. ¿Dr. Jekyll and Mr. Hyde? – y esto vale para opciones políticas y religiosas.

Asimismo, Scheneier nos explica que hay otras formas de analizar los datos de los usuarios.  Están los datos que suministramos confiando que el sitio los mantendrá en salvaguarda, por ejemplo, aquellos que el usuario comparte con un reducido número de usuarios –familiares, amigos-, etc.

La propuesta de Scheneier evidencia la cuestión clave respecto a la privacidad, y es que la mayoría de estas redes sociales están utilizando o utilizarán todos estos datos con el objetivo de obtener ingresos a través de su comercialización a terceros, en especial para acciones de un marketing, desde el comercial al político, que podrá contar con una segmentación cada vez más precisa de los perfiles de las personas y donde la geolocalización, cada vez más, será uno de los elementos básicos.  Un dato, hoy mismo, Twitter ha anunciado que almacenará y podrá analizar todos los enlaces que se incluyan en los mensajes de los usuarios de la red social de microblogging para campañas publicitarias.

A pesar de que la mayoría de las redes sociales ofrecen a los usuarios gestionar la privacidad de algunos datos –una gestión que suele ser engorrosa para la mayoría y nada evidente- esto afectaría, como señala Scheneier a los datos básicos del servicio y únicamente en los aspectos de la privacidad –en términos de visibilidad- en su relación con la gente. Para el resto de la taxonomía de los datos , en general, la mayoría de los usuarios no tienen nada claro como gestionarlos y, sobre todo, el conocimiento que se puede inferir al relacionarlos de forma adecuadas.

En mi opinión, las redes sociales están facilitando que las personas puedan desarrollar su grafo social y compartir sus cosas, pero al mismo tiempo están tejiendo un entramado de grafos superpuestos donde afloran comportamientos, preferencias o emociones, entre otros aspectos relacionados con los individuos. En fin, nuestros datos depositados en empresas privadas con ánimo de lucro que convierten el conocimiento sobre las personas en mercancía.

Twitter. Ser popular no implica ser influyente

Tener un gran número de seguidores “followers” en Twitter puede significar ser popular pero no necesariamente implica ser influyente. En otras palabras, tener un gran número de seguidores no implica que vas a ser mencionado o “retuiteado” de forma significativa.

Asimismo, en el estudio constatan que la influencia no se logra de forma espontánea o accidentalmente , requiere una implicación personal y un esfuerzo constante con el fin de ganar y mantener dicha influencia. Esto podría significar, según los investigadores, que los usuarios influyentes son más predecibles y, por tanto, facilita la identificación de los influyentes emergentes.

Esta conclusión no es producto de la intuición, es el resultado de un extenso trabajo de investigación y análisis estadístico de cerca de 55 millones de cuentas de usuarios, 1.963 millones de enlaces (followings) entre cuentas y 1.755 millones tweets.

El estudio Measuring User Influence in Twitter: The Million Follower Fallacy, ha sido desarrollado por un grupo de investigadores de Alemania, Brasil y Reino Unido y tienen previsto presentarlo oficialmente en la 4th Int’l AAAI Conference on Weblogs and Social Media que se celebrará el próximo mes de mayo.

Robert B Cialdini (1993): Influence : the psychology of persuasion

Robert B Cialdini (1993): Influence : the psychology of persuasion