{lang: 'es'}

Tuve hace poco una conversación sobre los trending topics en Twitter con @alejandrosuarez en el que comentábamos que no estaban muy pulidos y que no nos resultaban muy útiles.

Los Trending Topics, también TT, son un término de Twitter que se refiere a las palabras más citadas por los twitteros en los últimos momentos. El cálculo de los TT se hace en base a un complejo algoritmo en el que entran en juego la zona horaria, el número de tweets producidos en la última hora, el número de followers del usuario que lanza el tweet, etc… incluso dispone de un filtro de palabras no relevantes para que no lleguen a Trending Topic, como “lunes”, o “me voy a la cama”. Para más información sobre el algoritmo, se puede ir al articulo de Buzzgain donde lo explican con mejor detalle.

Por qué no está tan pulido? Algunas razones:

  • Porque no se tienen en cuenta los diferentes idiomas. Una palabra en checo tiene muy pocas probabilidades de terminar siendo TT ya que este idioma es poco hablado en Twitter. Casi todos los TT son en inglés.
  • Porque no se tienen en cuenta los ámbitos locales. En España podemos hablar todos de la final de la Copa del Rey con un hashtag de #finalcopa pero sería fácilmente desbancado por el estreno de una película a nivel mundial aunque en España no se hable de ella.
  • Porque no unifica términos parecidos. A raíz de la muerte de Michael Jackson, 9 de los 10 top trending estaban dedicados a él, pero varios eran muy similares: Michael Jackson, michaeljackson, mjackson, etc… El tipo de búsqueda que se hace es literal, teniendo en cuenta espacios y caracteres especiales. Omitiéndolos, o haciendo búsquedas más difusas, se unificarían términos cuyos rankings están dispersos y podrían llegar a ser TT.
  • Porque hay palabras que se dicen igual en todos los idiomas, y parten con ventaja sobre el resto para llegar a TT.

Propuesta para mejorar la herramienta de Trending Topics:

  • Permitir seleccionar el radio geográfico para calcular los TT. O establecer uno por defecto.
  • Permitir filtrar por idiomas. ¿cómo ? ¿ Por el idioma mayoritario del usuario o por el idioma del tweet? Recordemos que muchos tweets no tienen suficientes palabras completas como para que un analizador automático pueda discernir en qué idioma está escrito.
  • Filtrado por followings. Se da por hecho que los followings son seleccionados por el usuario porque su conversación le interesa, y por ende, los términos más frecuentes de los seguidos deben ser los más relevantes para ese usuario. Se podría incluir al set de followers+followings.
  • Unificar términos en base a diccionarios de idiomas, de forma que rain, regen, оса́дки y lluvia cuenten como el mismo término

Para el que no lo sabía, citando de Buzzgain: el número medio de tweets por día es de 1′9 millones y son tuiteados por 631.737 usuarios distintos.

Tenéis más ideas para mejorar el concepto de Trending Topics?

No sé muy bien cómo quedara este post en el blog, es la primera vez que escribo y publico un artículo desde el Word 2007.

{lang: 'es'}

Entradas relacionadas