Essai de cartographie des blogs musicaux

Tim Berners Lee, inventeur du lien hypertexte, investi le web d’une dimension éminemment sociale. « The web doesn’t just connect machines, it connects also people ». Le lien hypertexte est un vecteur extrêmement puissant permettant de cartographier le web, en instaurant une mesure de l’autorité, mais également de l’affinité entre les sites. Plus un site sera cité par d’autres, ou les citera, plus il pourra être considéré comme autoritaire dans son domaine. Plus deux sites partageront un réseau de liens communs, plus ils pourront être considérés comme « proches » ou en affinité. Les moteurs de recherche, tels que Google ou Bing, s’appuient sur ce constat pour construire des indicateurs (ex : le PageRank) de manière à ordonner et cartographier le web sous forme de listes (la page de résultats). Néanmoins, ces listes ne permettent pas de visualiser les échanges entre entités et comprendre leurs regroupements affinitaires sous forme de communautés. « Le passage au niveau graphique et explicite d’un objet jusque-là purement mathématique en transforme le sens. Ce qui était pour les moteurs de recherche un corpus documentaire à ordonner de manière strictement procédurale et heuristique va devenir un territoire de relations sociales, parcouru de clivages et d’affinités qu’il convient d’objectiver » (B.Kostras)

A l’aide du logiciel Hyphe, développé par le Médialab de Science Po, nous avons modélisé les liens entre 95 sites musicaux aux positionnement éditoriaux variés (musique classique, jazz, indie-rock, metal extrême…). Depuis la page d’accueil de ces sites, nous avons parcouru (« crawlé ») les liens de premier niveau, c’est-à-dire à 1 clic de la page de départ), pour découvrir 6396 autres entités qui vont faire le pont. Ensuite, nous avons importé le jeu de données recueilli dans un logiciel de modélisation de réseaux (Gephi) pour y apporter des traitements statistiques et le mettre en forme.


Dans un premier temps, nous avons réalisé une première mise en forme du réseau, en attribuant une plage de degrés à chaque noeud, c’est-à-dire la somme des liens entrants et sortants de chaque entité. Ce sera notre métrique d’autorité : plus le point est gros, plus son autorité est forte au sein du réseau. Néanmoins, rappelons que nous avons collecté les données à partir de la page d’accueil, à +1 clic. L’architecture du site aura donc une influence forte sur les résultats.

Puis, nous avons essayé de catégoriser chaque noeud. Le travail s’avère fastidieux (presque 7000 items à classer, de manière parfois subjective) et relativement inefficace du point de vue de l’analyse, car les catégories retenues sont peu diverses. Néanmoins, cela nous a permis une bonne compréhension de la nature des acteurs présents et d’identifier les ponts entre les entités principales de ce graphe (nos 95 sites). Nous avons établi une dizaine de catégories en fonction de la nature de l’acteur (« label », « salle de concert », « média », « groupe »…) conjointement à une affinité musicale, si attribuable (« généraliste », « metal », « rock », « hip hop », …).

Finalement, nous avons privilégié un traitement statistique en utilisant l’indicateur de modularité calculé par Gephi. La modularité mesure le partitionnement des nœuds d’un graphe, ou réseau, en communautés. Nous avons limité la construction de 16 groupes (clusters), représenté chacun par une couleur différente. Ce sera notre métrique d’affinité.

Ainsi, on voit se dessiner clairement des territoires affinitaires et des clivages entre agrégats de sites. D’abord, entre les sites au positionnement plus prononcé pour les musiques inspirés du blues (metal, rock, pop, …) et les musiques urbaines / jazz (electro, hip hop + jazz). Avec plus de granularité, on identifie un petit groupe de sites de musique classique à proximité des sites de jazz.

A l’aide d’un indicateur de centralité (Eigenvector Centrality), nous capturons les noeuds les plus significatifs au sein du réseau. Ils se trouvent au centre du graphe et font le lien entre un maximum de communautés. Qu’est ce qui lie un site de metal extrême à un site de jazz ? Ce sont des médias et des plateformes généralistes. Les noeuds comportant le plus de liens entrants sont donc logiquement des réseaux sociaux ou des sites communautaires, tels que Facebook, Twitter, Wikipedia, Bandcamp, Soundcloud, Deezer, Spotify, Digitick qui seront utilisés pour proposer des playlists audio ou vidéo, de l’achat de tickets ou référencer les biographies d’artistes. Free propose un hébergement gratuit pour des blogs personnels.

En comparaison de notre catégorisation manuelle, l’indicateur de modularité nous apporte une analyse plus fine des affinités musicales et éditoriales entre notre centaine de sites. Nous perdons l’information concernant la nature du noeud (label, groupe, etc.) mais la génération de 16 clusters révèle des nuances dans le positionnement éditorial de sites appartenant aux mêmes grandes familles musicales.

Prenons l’exemple des sites « metal ». On note la présence de deux clusters regroupant des sites au contenu fortement positionné sur la musique metal et leur volonté encyclopédique (« Au porte du Metal » et « Metalchroniques » en violet ; « Radio Metal » et « Spirit of Metal » en jaune). Ces clusters se distinguent d’autres clusters marqués par un contenu éditorial plus généralistes (ZoneMetal, Metalsickness…) et/ou tendant vers le punk-rock (Metalorgie, Visual-Music, CoreAndCo, W-Fenec…).  Pour poursuivre l’analyse, la position de certains sites peut paraître étonnante. Par exemple, « La Grosse Radio » fait le pont avec la communauté Reggae/Ska, le site « Hip Hop Core » est isolé de la communauté hip hop, les sites de jazz (Le Jazzophone, Citizen Jazz) forment des groupes séparés…

Nous pourrions poursuivre l’analyse de manière plus qualitative pour affiner les positionnements éditoriaux de ces sites, à partir de corpus d’articles et d’une analyse sémiologique. Néanmoins, il est possible de percevoir à ce stade la volonté de construire des savoirs de manière encyclopédiques, et affinitaires, par la variété et les volumes de liens cités.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *