21-01-2005
Intéressant phénomène que celui qui fait grand bruit chez nos amis anglophones (et à peine chez nous). L'objet de tant d'ébullitions ? Les tags. Aucun lien avec une quelconque activité illégale de peinture urbaine, il s'agit simplement du développement d'un système permettant aux internautes d'enrichir l'information disponible sur le net grâce à des métadonnées. Porte-étendards de ce mouvement : del.icio.us qui permet de partager ses favoris et flickr qui permet de publier ses photos en ligne. Explications et pistes de réflexion sur ce qui pourrait bien dépasser le stade de l'épiphénomène...
Tout vient en fait d'un constat assez simple : le déferlement journalier de l'information a atteint un point qu'il devient de plus en plus difficile de la classifier, de l'archiver et surtout de la restituer à ceux qui la recherche par la suite. Même si certains doutent de la réalité de ce déluge (non je n'ai pas osé dire tsunami), il est sûr qu'une course est engagée tous azimuts pour ne rien en manquer (agrégateurs RSS, blogmarks, Google News, etc.).
C'est dans ce cadre qu'on a vu débarquer del.icio.us. Au-delà de l'astuce du nom de domaine, le service web répond à une vraie demande de la part des utilisateurs. Malgré un format normalisé pour les favoris (XBEL), les différents navigateurs utilisent leur propre format pour stocker les bookmarks. Par ailleurs le stockage en local expose potentiellement l'utilisateur à la perte de ses informations (virus, plantage de machine, formatage...), la bonne solution est donc évidemment de profiter du réseau pour une sécurité et une mobilité accrue. C'est justement ce que propose del.icio.us, mais à la différence d'un mylinea par exemple, il offre un double avantage : l'aspect collaboratif et l'exploitation des métadonnées.
Métadonnées, mouais, concrètement, ça veut dire quoi ? Traditionnellement les métadonnées sont définies comme de l'information sur l'information ("data about data"). Les internautes partagent grâce à del.icio.us leurs marque-pages, ils ne les classent pas dans des dossiers mais leur attribuent des "tags" ou "mots-clés", ils enrichissent l'information brute (l'URL) par une autre information (le mot-clé). Ainsi, fastclemmy.com par exemple est marqué par les termes suivants : "blogs", "css", "xhtml", "français", "standards-web", "web"... Le résultat peut paraître chaotique (il l'est d'ailleurs certainement de facto) et pourtant il s'avère terriblement efficace. Contrairement aux usines à gaz de la métadonnée (Dublin Core, DocBook...), la mise en oeuvre est intuitive, rapide et pertinente.
Le processus est intéressant dans la mesure où, à l'instar des wikis, le marquage des tags est collaboratif. Le travail de classification de l'information n'est plus subordonné à une équipe ou à un outil informatique (par définition non-intelligent) mais à un nombre élevé d'utilisateurs. On parle de classification distribuée.
D'autres services ont emboité le pas à del.icio.us. J'ai parlé plus haut de Flickr, qui permet de partager ses photos et de les annoter avec des tags. Récemment c'est aussi Technorati, sorte de baromètre des weblogs, qui proposait une syntaxe simple <a rel="tag" href="http://technorati.com/tag/[tagname]"> pour voir de quoi on parle dans la blogosphère.
Autant dire que ça bouge pas mal dans le domaine en ce moment... et on ne tarde pas à cerner rapidement les limites de ce système : les conséquences sociales, la montée en charge des systèmes de tags, les abus, etc. On l'aura compris, ce nouvel outil n'est pas parfait, le contraire serait étonnant pour un phénomène aussi jeune. Les métadonnées c'est l'avenir mais c'est encore un peu jeune...
A mon avis, tout ce mouvement doit en faire réfléchir plus d'un chez Google... Je ne doute pas qu'ils soient toujours à l'affût des nouveautés en termes de technologie de l'information. On l'a déjà vu avec l'expérimentation de Google Suggest, ce petit "plus" qui permet d'affiner sa recherche en temps réel grâce à l'utilisation de javascript/xmlhttprequest. Leur intérêt pour des techniques alternatives de ce genre est d'autant plus probable que leur décision d'introduire l'attribut rel="nofollow" sonne comme un aveu d'échec de leur algorythme de recherche PageRank. Pourtant, cet échec (relatif, Google reste l'un des moteurs de recherche les plus pertinents) n'est pas le premier : l'indexation manuelle des sites dans des annuaires a fait long feu (que ce soit par une "petite" équipe chez Yahoo ou l'appel international de DMOZ), les méta-moteurs ont fait un flop, etc. La distribution classifiée pourrait être l'un des moyens pour Google d'améliorer un peu plus sa pertinence.
Imaginez un Google qui combinerait ses différentes sources d'informations : DMOZ, informations HTML des pages (balises <title>, titrages, emphases), PageRank ET tagging. Car s'il est illusoire de penser que le phénomène de tagging est une révolution, il me semble plutôt qu'il s'agit d'un outil de plus pour mettre en place une approche combinatoire de la recherche d'information.
Tout ceci bien sûr en attendant que les metadonnées atteignent enfin votre bureau...