Logran predecir la popularidad de una publicación en Twitter con un 87% de efectividad

Dos tesis de la Facultad de Matemática, Astronomía, Física y Computación (FaMAF) de la UNC analizaron el comportamiento de usuarios e “influencers” en esa red social, que en Argentina suma doce millones de seguidores. La novedad es que las predicciones fueron realizadas en base al entorno de los usuarios y no al contenido de los mensajes. Los autores del trabajo darán una charla el viernes en la Feria del Libro y el Conocimiento. [20.09.2018]

Por Eloísa Oliva
Redactora UNCiencia
Prosecretaría de Comunicación Institucional – UNC
eloisa.oliva@unc.edu.ar

En el mundo, Twitter tiene cerca de trescientos veinte millones de usuarios, y aproximadamente doce millones en Argentina. Su principal característica es la brevedad obligada de los mensajes: no pueden superar los 280 caracteres.

¿Es posible predecir el comportamiento de un usuario? Y más aun, ¿es factible prever cuán popular puede llegar a ser un tuit? A eso apuntan dos tesis de la Licenciatura en Computación de la FaMAF.

En 2017, Pablo Celayes dio el primer paso. Dirigido por Martín Domínguez, su trabajo estuvo enfocado en predecir qué tan probable es que un usuario repostee un tuit de un tercero, basándose solo en el comportamiento que se da en su entorno de Twitter, es decir aquellos a quienes sigue y, a su vez, los seguidos por estos.

De esa manera, generó un modelo capaz de predecir cuándo un tuit será reposteado por ese usuario particular con una efectividad del 87%, ignorando el contenido del posteo y basándose solo en el comportamiento del usuario y sus “vecinos” de Twitter.

Un año más tarde, y dirigido por Domínguez y Celayes, Matías Silva demostró cómo los “influencers” son decisivos al momento de definir si un tuit será o no popular, independientemente del contenido que se exprese en los 280 caracteres que ofrece la red. Su modelo permite predecir si un retuit será tendencia con una precisión del 78%. Si a ello se suman técnicas para analizar el contenido, la efectividad de las predicciones asciende al 87%.

Los tres –Domínguez, Celayes y Silva– constituyeron un grupo de investigación sobre la temática, radicado en la FaMAF, y el viernes 21 de septiembre brindarán la conferencia “Predicción de tendencias en redes sociales”, en la Feria del Libro y el Conocimiento de Córdoba

Usuarios predecibles

Un dato relevante, y que fue decisivo para que estos investigadores se focalizaran en esta red social, es que su información es pública.

“En Twitter, la información está disponible y es fácil acceder al contenido. Podés armar un conjunto de datos –que nosotros llamamos “dataset”–, que sirva para hacer predicciones de manera libre”, explica Domínguez.

Ese “dataset” les permitió construir un “grafo”, una especie de mapa donde están representadas todas las conexiones: quién está conectado, quién sigue a quién y quién es seguido por quién. “Es como tomar una muestra de Twitter”, explica Silva.

Se construyó entonces un set de datos de más de 5000 usuarios, de manera tal que cada usuario tuviera a su vez a sus contactos más relevantes incluidos dentro del set. Esta propiedad de la red de usuarios construida permitió observar un entorno representativo para cualquier usuario elegido al cual se le quieran estudiar sus preferencias. Del comportamiento de ese entorno realizaron las inferencias, separando la muestra en dos partes: a una la observaron y en base a su comportamiento formularon hipótesis; con la otra verificaron esas hipótesis.

Un dato clave, es que los usuarios que integraron el entorno fueron anonimizados, es decir, no son identificables, ya que  a los investigadores lo que les interesaba era ver su actividad: las conexiones desplegadas, la cantidad y frecuencia de publicaciones, el retuiteo (práctica de compartir mensajes de otros en esa red).

“El estudio realizado por Pablo (Celayes) predecía sobre un usuario particular, si iba a retuitear o no. Lo que pensamos con mi estudio fue generalizar y ver si todos o la mayoría de los usuarios son predecibles. Entonces, lo que probamos fue la predictibilidad de un tuit en todo el entorno. Es decir si ese tuit iba o no a ser tendencia”, resume Silva.

Domínguez agrega una definición acerca de sus conclusiones: “Decime el comportamiento de tu entorno respecto a este tuit y yo voy a determinar, voy a establecer una corroboración, entre el comportamiento de tu entorno y vos”.

El entorno y el contenido

En ambos estudios, sus autores fueron sin embargo un paso más allá y analizaron en parte el contenido. Para el trabajo de Celayes usaron una herramienta llamada LDA (Latent Dirichlet Allocation), que permite identificar de qué tema habla un tuit. Sumando esa información, la precisión de los resultados se elevó un dos por ciento. En el caso de Silva, sumaron además otra herramienta (Word  Embeddings) y la precisión de la predictibilidad subió de un 79% a un 87%.

Lo destacable de la variable social, es decir, del entorno, es que si solo se se analiza el contenido de los mensajes el nivel de predictibilidad cae a un 40%. Esto quiere decir que las predicciones basadas exclusivamente en lo social serían mucho más acertadas que las predicciones basadas en el contenido. Potenciadas, la efectividad es altísima.

Por último, y en relación al camino a investigar, Celayes apunta: “Nosotros hablamos siempre de ‘predecir’, pero es bueno aclarar que no estamos hablando del futuro, sino que predecir en nuestro caso significa que en base a unos datos determinados se pueden deducir otros. Esa dimensión, la del futuro, es la que nos falta agregar al estudio; porque todo este análisis lo hacemos en base a una foto del pasado”.

Las tesis
Recomendación de información basada en análisis de redes sociales y procesamiento de lenguaje natural
Autor: Pablo Celayes. Director: Martín Domínguez. 2017Predicción de tendencias en redes sociales basada en características sociales y contenidos
Autor: Matías Silva. Director: Martín Domínguez. Codirector: Pablo Celayes. 2018

Más información