Data mining. ¿Cómo extraer la máxima información de Twitter?

twitterDataminerDesde que soy usuario de Twitter, uno de los aspectos que ha despertado mi interés es la posibilidad de poder extraer la información no trivial que subyace en ese flujo continuo que está generando más de 170 de millones de tuits cada día.

Hoy, Twitter es una red de microblogging que permite conocer lo que se habla y lo que interesa a la gente. Así mismo, en cierta medida, es la noticia en vivo que está superando a los medios tradicionales de comunicación, por su inmediatez y novedad.

En la Red disponemos de cientos, por no decir miles, de aplicaciones que permiten obtener analíticas de Twitter. Obviamente, como la mayoría de los servicios que se van consolidando, los servicios gratuitos ofrecen informaciones básicas, mientras que los sitios web de pago nos permiten obtener una información mucho más elaborada. Sin embargo, cualquier persona interesada dispone de los recursos necesarios para explorar, por su cuenta, esa inmensa mina de datos que es hoy Twitter y extraer un cierto conocimiento, tanto predictivo como explicativo, en diversos campos como en el marketing o el sociológico y antropológico.

En mi caso particular, para realizar esta minería de datos (Data mining), he empezado a utilizar el lenguaje de programación R, un software libre para análisis estadístico y gráfico muy popular en las tareas de investigación de la comunidad científica en campos tan punteros como la biomedicina y la bioinformática. Para adquirir los conocimientos básicos de dicho lenguaje de programación, por ejemplo, en la plataforma MOOC de Coursera disponemos de un excelente curso, Computing for Data Analysis, de la Johns Hopkins University.

Para extraer la información de Twitter, el entorno de programación del lenguaje R suministra extensiones o paquetes, como twitteR que permite, entre otras opciones, extraer tuits públicos aplicando diversos criterios tales como rango de fechas, usuario, treding topics, hashtag, y palabras o frases claves.  Aunque el número máximo de tuits esté restringida por Twitter, por ejemplo un máximo de 3200 tuits en un acceso al Time Line, es una información suficiente para desarrollar los métodos y programas que nos permitan realizar la minería de datos en Twitter. Para un acceso masivo a los datos y una explotación comercial de nuestros métodos y programas, siempre tendremos la opción de contratar con Twitter un acceso completo.

Una vez que hemos obtenido los datos en bruto, es decir, la colección de tuits que cumplen unas determinadas condiciones, con el lenguaje R y las funciones especializadas podemos trasladar las informaciones de los tuits en tablas normalizadas que nos permitirán realizar una exploración analítica de los datos y su representación gráfica. Asimismo, al margen de los datos estructurados que podemos extraer: usuario, conexiones con otros usuarios, fecha y hora de publicación del tuit, etcétera, el aspecto más interesante es poder extraer información significativa del propio texto del tuit, una información no estructurado que plantea importantes desafíos en la búsqueda semántica. En este punto, el lenguaje R también nos aporta potentes herramientas para empezar a pulir los 140 caracteres con el objetivo de localizar información que nos permita conocer sobre que temas se está hablando, sobre la diversidad léxica, o, entre otros, sobre las palabras o frases más frecuentes. Asimismo, tenemos la posibilidad de realizar análisis, en el texto del tuit, de actitudes positivas o negativas hacia un determinado acontecimiento, producto o servicio. Esto último, denominado análisis de los sentimientos o minería de opinión, es un área de investigación que persigue poder identificar y extraer información subjetiva de textos y documentos, algo nada fácil considerando la ambigüedad que puede conllevar el lenguaje natural y el contexto cultural particular de cada persona. Véase (Mining the Web for Feelings, Not Facts),

De cualquier forma, con la bibliografía existente sobre el data mining y los recursos, ejemplos y estudios de casos, que podemos localizar en la Red Googleando, está asegurado un viaje apasionante a través de los flujos de tuits. Aquí os dejo, un ejemplo de mis primeros pasos de “minero” en Twitter.

Presentación de las nubes de palabras más frecuentes utilizadas en el Time Line de estos últimos días por dos profesionales del coach y los RR.HH. Criterios de visualización un máximo de 100 palabras por una cuestión de espacio. ¿Qué observaciones podemos extraer sobre el estilo y los mensajes que quieren transmitir dichos profesionales en su actividad tuitera?

WordCloudTwitterUsers

En Data mining. Análisis de las actividades de los usuarios en Twitter y en Data mining. Análisis de las interacciones sociales de los usuarios en Twitter podrás ver una aplicación más detallada.

3 pensamientos en “Data mining. ¿Cómo extraer la máxima información de Twitter?

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *