Archivo del Autor: JoseLopezPonce


Data mining. Análisis de las actividades de los usuarios en Twitter

Using-TwitterTal como comente en una entrada anterior: Data mining. ¿Cómo extraer la máxima información de Twitter?, el acceso a las bases de datos de Twitter permite que podamos analizar “casi todo” lo que acontece en los flujos de mensajes en la red social de microblogging. En mi nueva actividad de “minero” de datos, hoy voy a ilustrar algunos ejemplos de análisis de la actividad que desarrolla un determinado usuario utilizando el lenguaje de programación R y la extensión twitteR para interaccionar con Twitter.

A través de la API pública de Twitter podemos extraer hasta un máximo de 3.200 tuits generados en los dos últimos meses  de un determinado usuario (userTimeLine) y analizar su actividad. En el ejemplo que presento a continuación se trata de un usuario real que ha generado 1.455 tuits en los dos últimos meses, aunque por razones obvias su identificativo de usuario está anonimizado como @usuarioSrX.  Pues bien, en una primera aproximación analítica podríamos intentar responder algunas preguntas cómo:

¿Cuál ha sido la producción de diaria de tuits?

TA01

Aquí podemos ver una gráfica de la actividad de estos dos últimos meses del usuarioSrX y observar a simple vista su frecuencia tuitera por día. Si aplicamos un análisis de auto-correlación para chequear la aleatoriedad de los datos se puede constatar que la serie en el tiempo analizada se mantienen en los umbrales de aleatoriedad y manifiesta, para el periodo analizado, un modelo de actividad caracterizado por una constancia cotidiana en la actividad del usuario en estudio en Twitter (línea verde).

TA02

En este punto señalar la importancia de cómo visualizar la información y que la misma información la podemos presentar en otros formatos más intuitivos y elegantes, en este caso utilizamos una representación en  forma de un  calendario con un mapa de colores que muestra la densidad de actividad por día.

TA03

Para la elaboración de este mapa he utilizado la función en R, Calendar Heat Map, desarrollada por Paul Bleicher.

Sin embargo, más que la visualización de la producción diaria, nos puede interesar conocer el día o los días de la semana donde @usuarioSrX es más activo:

TA05

También nos podría interesar conocer su actividad por tramo horario:

TA04

Aunque podríamos afinar más y visualizar, según el día de la semana, las horas de más actividad:

TA06

Además, nos puede interesar conocer desde dónde ha escrito los tuits:

TA07

Otras formas de visualizarlo:

TA08

TA09

Estos son algunos ejemplos  de cómo analizar la actividad de los usuarios en Twitter, lo importante a señalar es que una vez que extraemos los datos de los usuarios y su actividad, con el entorno de programación R podemos realizar una explotación analítica exhaustiva de dichos datos de acuerdo con la información que queramos extraer.  Alguien se preguntará para que sirve un análisis de la actividad de un usuario, pues bien, aquí apunto algunas ideas según el rol que queramos asumir:

Como voyeur:  te permite es una mirada más “excitante” sobre la actividad de otros usuarios que va mucho más allá del flujo de un Time Line. Os aseguro que, a partir de ahora, con las herramientas que estoy desarrollando mi nivel de morbo y chafardeo se ha incrementado.

Como ególatra: dispones de indicadores de tu propia actividad en la red de microblogging.

Como Community Manager: permite obtener indicadores de la o las cuentas que gestiona y de las cuentas de otras marcas o entidades de tu competencia para realizar comparativas de actividades.

Como analista político: Por ejemplo, poder monitorizar la actividad de sus señorías en el congreso, minuto a minuto, hora a hora, día a día… no tiene precio, y si además, lo complementamos con el análisis de los contenidos de los tuits, pues eso…

Como : la imaginación al poder. Según tu actividad e interés temático, junto a las correlaciones que puedas establecer con otras fuentes de información, las posibilidades son innumerables. Los caladeros del océano del Big Data son inmensos.

Me vuelvo a la mina.

Actualización: 13/02/2013 Nuevos gráficos mejorados.

Data mining. ¿Cómo extraer la máxima información de Twitter?

twitterDataminerDesde que soy usuario de Twitter, uno de los aspectos que ha despertado mi interés es la posibilidad de poder extraer la información no trivial que subyace en ese flujo continuo que está generando más de 170 de millones de tuits cada día.

Hoy, Twitter es una red de microblogging que permite conocer lo que se habla y lo que interesa a la gente. Así mismo, en cierta medida, es la noticia en vivo que está superando a los medios tradicionales de comunicación, por su inmediatez y novedad.

En la Red disponemos de cientos, por no decir miles, de aplicaciones que permiten obtener analíticas de Twitter. Obviamente, como la mayoría de los servicios que se van consolidando, los servicios gratuitos ofrecen informaciones básicas, mientras que los sitios web de pago nos permiten obtener una información mucho más elaborada. Sin embargo, cualquier persona interesada dispone de los recursos necesarios para explorar, por su cuenta, esa inmensa mina de datos que es hoy Twitter y extraer un cierto conocimiento, tanto predictivo como explicativo, en diversos campos como en el marketing o el sociológico y antropológico.

En mi caso particular, para realizar esta minería de datos (Data mining), he empezado a utilizar el lenguaje de programación R, un software libre para análisis estadístico y gráfico muy popular en las tareas de investigación de la comunidad científica en campos tan punteros como la biomedicina y la bioinformática. Para adquirir los conocimientos básicos de dicho lenguaje de programación, por ejemplo, en la plataforma MOOC de Coursera disponemos de un excelente curso, Computing for Data Analysis, de la Johns Hopkins University.

Para extraer la información de Twitter, el entorno de programación del lenguaje R suministra extensiones o paquetes, como twitteR que permite, entre otras opciones, extraer tuits públicos aplicando diversos criterios tales como rango de fechas, usuario, treding topics, hashtag, y palabras o frases claves.  Aunque el número máximo de tuits esté restringida por Twitter, por ejemplo un máximo de 3200 tuits en un acceso al Time Line, es una información suficiente para desarrollar los métodos y programas que nos permitan realizar la minería de datos en Twitter. Para un acceso masivo a los datos y una explotación comercial de nuestros métodos y programas, siempre tendremos la opción de contratar con Twitter un acceso completo.

Una vez que hemos obtenido los datos en bruto, es decir, la colección de tuits que cumplen unas determinadas condiciones, con el lenguaje R y las funciones especializadas podemos trasladar las informaciones de los tuits en tablas normalizadas que nos permitirán realizar una exploración analítica de los datos y su representación gráfica. Asimismo, al margen de los datos estructurados que podemos extraer: usuario, conexiones con otros usuarios, fecha y hora de publicación del tuit, etcétera, el aspecto más interesante es poder extraer información significativa del propio texto del tuit, una información no estructurado que plantea importantes desafíos en la búsqueda semántica. En este punto, el lenguaje R también nos aporta potentes herramientas para empezar a pulir los 140 caracteres con el objetivo de localizar información que nos permita conocer sobre que temas se está hablando, sobre la diversidad léxica, o, entre otros, sobre las palabras o frases más frecuentes. Asimismo, tenemos la posibilidad de realizar análisis, en el texto del tuit, de actitudes positivas o negativas hacia un determinado acontecimiento, producto o servicio. Esto último, denominado análisis de los sentimientos o minería de opinión, es un área de investigación que persigue poder identificar y extraer información subjetiva de textos y documentos, algo nada fácil considerando la ambigüedad que puede conllevar el lenguaje natural y el contexto cultural particular de cada persona. Véase (Mining the Web for Feelings, Not Facts),

De cualquier forma, con la bibliografía existente sobre el data mining y los recursos, ejemplos y estudios de casos, que podemos localizar en la Red Googleando, está asegurado un viaje apasionante a través de los flujos de tuits. Aquí os dejo, un ejemplo de mis primeros pasos de “minero” en Twitter.

Presentación de las nubes de palabras más frecuentes utilizadas en el Time Line de estos últimos días por dos profesionales del coach y los RR.HH. Criterios de visualización un máximo de 100 palabras por una cuestión de espacio. ¿Qué observaciones podemos extraer sobre el estilo y los mensajes que quieren transmitir dichos profesionales en su actividad tuitera?

WordCloudTwitterUsers

En Data mining. Análisis de las actividades de los usuarios en Twitter y en Data mining. Análisis de las interacciones sociales de los usuarios en Twitter podrás ver una aplicación más detallada.

El Partido X. ¿Transformación de la política o entretenimiento político X.0?

Logo Partido X

Logo Partido X

De forma súbita surge el Partido X-Partido del Futuro con un programa sintetizado en una frase “Democracia y punto”. Un partido cuyos miembros son anónimos con un discurso donde se recogen planteamientos próximos a los del movimiento social 15M.  Su planteamiento es desarrollar un “método” experimental para construir una democracia sin intermediarios: Es un método del futuro para resetear el espacio electoral. Una operación ciudadana de desalojo del hemiciclo. Según su vídeo programático, la ciudadanía ha de adueñarse de espacios de soberanía para poder decidir en su provecho. Persiguen realizar un “ERE” para eliminar a los diputados, ni señorías y convertirlos en empleados públicos al servicio del bien común. Hasta aquí, una declaración de intenciones para que los ciudadanos tomen el control de las decisiones políticas con su participación directa utilizando el potencial de Internet como herramienta de discusión de iniciativas y toma de decisiones. Por mi parte, nada que objetar a dicho planteamiento, aún más, es un planteamiento que suscribo, por deseable, aunque pueda considerarse, a priori, utópico.

Sin embargo, el anonimato de los promotores y la indefinición del cómo, son elementos que, en mi caso, plantea muchas dudas a pesar de que cuente con el beneplácito acrítico de un reputado científico de lo social como Manuel Castells tal como lo reflejó en su artículo del sábado, “Partido del futuro” publicado en La Vanguardia. Sin olvidar, la cobertura, hasta cierto punto excepcional, de los grandes medios de comunicación.

Es indiscutible que la política institucional y los políticos está en su peor momento por su incapacidad de dar respuesta a la crisis actual, por su institucionalización como casta al margen de los intereses de los ciudadanos y, por el alto nivel de corrupción, prevaricación y de osmosis de un número significativo de loa miembros de los partidos con responsabilidades de gobierno con los grandes intereses empresariales. Obviamente, este panorama invita a un “reset” del espacio electoral como plantea el nuevo partido. Sin embargo, la cuestión es mucho más compleja y requiere respuestas con mucha más enjundia que lo planteado hasta el momento.

El primer aspecto a señalar es que quieren desarrollar un método, no una ideología, para recuperar la soberanía ciudadana e impulsar ese mínimo común múltiplo de cuestiones sociales que todos tenemos en común. En mi opinión, este punto es clave para determinar el grado de indefinición como partido. Es decir, se presentan como una “estructura” de acción política ideológicamente transversal poniendo el énfasis en el método. Lamentablemente y por el momento, los únicos referentes históricos de la acción política basados en la transversalidad ideológica han sustentado los discursos más reaccionarios, tanto fascistas como neoliberales. Ignoro si los promotores son conscientes, pero el hilo argumental de su discurso de presentación está cerca, por poner un ejemplo y salvando las distancias, del pensamiento de Gonzalo Fernández de la Mora, ex ministro e ideólogo del régimen franquista, sobre el Estado de Razón, es decir, el que sirve al orden, la justicia y el desarrollo a través de decisiones racionales, no apriorísticas donde las ideologías, los partidos políticos y la igualdad social no tienen cabida. En este último punto, señalar que para de la Mora, la búsqueda de la igualdad nace de la envidia hacia aquellos que son mejores. Lo denominaba la envidia igualitaria como motor de las posiciones doctrinales de la izquierda.

Otro ejemplo de cercanía en posiciones sobre la transversalidad ideológica, en este caso con el pensamiento neoliberal, lo encontramos en Francis Fukuyama, influyente politólogo estadounidense y autor del El fin de la Historia y el último hombre, donde planteaba que las ideologías ya no son necesarias y han sido sustituidas por la economía y establecía las bases de un pensamiento único para una democracia liberal sustentada en: economía de libre mercado, gobierno representativo y derechos jurídicos.

Más de uno podrá considerar que mi intento de aproximar las tesis del Partido X, aún por definir,  sobre la transversalidad ideológica, con posiciones como la Fukuyama o de la Mora, es un ejercicio de descalificación desde unas determinadas posiciones ideológicas. Pues tienen toda la razón, es un ejercicio de descalificación de la posición de transversalidad que propugnan, porque las posiciones ideológicas siguen siendo un componente de la consciencia del ser social y reflejan nuestras ideas sobre los sistemas existentes en nuestra sociedad respecto a todos ámbitos desde los aspectos socio-económicos, hasta los culturales, morales y religiosos y, por lo tanto, estas posiciones convergen, en lo ensencial, en distintas corrientes ideológicas en base a la afinidad de criterios.

Hoy, en pleno siglo XXI, el espectro ideológico, que va desde las posiciones más radicales progresistas hasta las más conservadoras reaccionarias, es muy amplio con infinitos matices. Por este motivo, hablar del antagonismo izquierda-derecha, desde un punto de vista ideológico restringe cualquier análisis. Sin embargo, seguimos inmersos en una confrontación ideológica por el antagonismo inherente y en cierta medida, inevitable, de los diversos conflictos sociales como resultado de un conflicto central entre los diferentes intereses que postulan las clases sociales con sus intereses socioeconómicos. En este contexto, los partidos políticos, siguen siendo la asociación de individuos unidos por sus intereses y objetivos como clase social y que persiguen como meta alcanzar el control del gobierno para llevar a la práctica esos objetivos y, por lo tanto, no hay transversalidad ideológica, o estás en un lado de un espectro ideológico o estás en el otro lado. Porque la crisis económica actual es lisa y llanamente,  una agresión de una clase social contra otra clase, de una minoría que acapara todo el poder económico-financiero y político contra la gran mayoría de personas. Es la dictadura de los grandes centros de la economía especulativa y financiera.  Aún más, afecta directamente a las clases medias, el gran colchón social-económico-ideológico que el capitalismo, como sistema, desarrolló en el mundo occidental durante los años Guerra Fría. Ahora, el sistema ya no necesita mantener dicho colchón y, por lo tanto, de ahí la depauperación de dicho colectivo social. En nuestro caso particular, si miramos la evolución del coeficiente de Gini, un indicador que mide el nivel de desigualdad en la sociedad,  la diferencia entre las rentas de los más ricos y los mas pobres, en España en los últimos años ha subido según Eurostat, 2,7 puntos desde los 31,3 de 2007 a los 34 de 2011, mucho más que ningún otro país europeo. Es decir, un empobrecimiento directo de las clases medias.

El Partido X, propone desarrollar un método basado en la normalización de herramientas de democracia directa: referendos, iniciativas legislativas populares, participación en la elaboración de leyes y “wikidemocracia”. Como embrión de un Think tank, lo más amplio posible, para empoderar políticamente a los ciudadanos y transformar la partidocracia actual en estructuras que representen y defiendan los intereses reales de los ciudadanos afines ideológicamente, es una iniciativa siempre pertinente. Pero la cuestión, en mi opinión, no se centra en el “reset” del espacio electoral, sino en el “reset” de un sistema económico-financiero que es el que define, en definitiva, las estructuras de poder y control social.

La toma de conciencia social real entre los ciudadanos no se va a desarrollar a través de una “wikidemocracia”, los muros en Facebook  o los hashtags en Twitter, aunque estos medios sirvan para fijar ideas, conceptos o comunicación sobre movilizaciones, se desarrolla a través de la acción, a través de las movilizaciones en calles y plazas. La marea blanca en defensa de un sistema sanitario público, las acciones contra los desahucios, o, entre otras, la manifestación ciudadana por el derecho a decidir en Cataluña, son acciones que sacuden al sistema, inciden en los programas de los partidos y compromete realmente a los ciudadanos.

La verdad, me ha sorprendido el interés que ha despertado la presentación del Partido X-Partido del Futuro y, sobre todo la venia por parte de Manuel Castells. Porque si buscamos un partido real, sin X, que aplica los principios de profundización de la democracia participativa con cargos electos elegidos en asamblea y que actúan como empleados públicos al servicio de los ciudadanos que representan, además defiende una sociedad de redistribución de la riqueza, la lucha contra el paro y la precariedad, la defensa de los servicios públicos, el establecimiento de mecanismos de control popular de la economía y el despliegue de políticas efectivas que garanticen la igualdad de género, lo podemos encontrar en Cataluña y se denomina Candidatura d’Unitat Popular (CUP), eso sí, un partido con una línea ideológica bien definida: independentista y en confrontación directa con el sistema socioeconómico dominante. Sin transversalidad ideológica y sin “cibermétodo X.0”, únicamente con compromisos ideológicos bien definidos y acción política participativa. A partir de aquí cada uno tiene que definirse de acuerdo con sus afinidades y simpatías políticas y alinearse o no alinearse con la CUP. Una realidad, lejos de utopías y entretenimiento X.0, difícil de digerir para Manuel Castells,  con un discurso ideológico cercano a la CUP pero que al final se comporta como un intelectual con compromisos líquidos si consideramos que dio su apoyo al candidato de CiU a la alcaldía de Barcelona en las municipales del 2011.

Pues eso, Partido X-Partido del Futuro = Entretenimiento político X.0