Aller au contenu principal
Au dépôt légal du Web, le coronavirus a ses entrées

Au dépôt légal du Web, le coronavirus a ses entrées

Etude. Focus sur le coronavirus sur Twitter

Publié le 29.04.2020

Le dépôt légal du web poursuit son activité de collecte des sources sur le Web, à distance. Dans ce contexte de crise sanitaire, le coronavirus bénéficie d'une attention particulière sur les réseaux...

Il est de mise au dépôt légal du web d’adapter les collectes de données à l’actualité. Et le coronavirus n'y a pas échappé. C'est notamment sur Twitter que ces mots reviennent le plus souvent : confinement, COVID-19, coronavirus, et d'autres encore, en liens avec cette crise totalement inédite que traverse notre pays. Près d'un quart des tweets collectés sont en rapport avec cette crise. Le graphique ci-dessous montre la proportion des mots-clés les plus utilisés dans les tweets du mois de mars 2020. "coronavirus" arrive en tête. Il représente tous les jours des milliers, voire des centaines de milliers de tweets générés.

L'histogramme ci-dessous montre que le 17 mars, ce ne sont pas moins de 60 000 tweets par heure contenant les mots coronavirus, covid ou confinement qui ont été générés, soit 1,4 million pour la journée. Le dépôt légal du Web a donc décidé de les intégrer à son catalogue. Ce fut déjà le cas lors des attentats de Paris en 2015, du mouvement Balance ton porc et des Gilets jaunes, où les réseaux sociaux, et notamment Twitter, jouaient un rôle très important. Lors de ces crises, les réseaux sont bien souvent la voix du peuple. L’équipe du dépôt légal du web, composée de six personnes et pilotée par Jérôme Thièvre, qui travaille à distance depuis le 16 mars, a décidé d’ajouter 80 hashtags (nom donné aux mots-clés sur Twitter) à leur collecte en lien avec la pandémie. Au sein de l’équipe, c’est Boris Blanckemane qui se charge plus spécifiquement de la collecte sur le réseau social Twitter. Il est pour cela épaulé par un documentaliste, présent pour un cycle de 4 mois à chaque fois. "Près de 18 millions de tweets relatifs à l’épidémie ont déjà été collectés", précise Jérôme Thièvre.

La documentation de ces mots-clés consiste à expliquer pourquoi ils ont été choisis : quand ? Dans quel contexte ? Et jusqu’à quand ils seront collectés. La collecte ne peut en effet pas être à durée indéterminée, car elle a un coût. Les thèmes que le dépôt légal peut suivre sont aussi en nombre limité.

Si le dépôt légal s’intéresse aux mots-clés, il suit aussi des comptes. Les cibles sont les comptes Twitter des principales chaînes de télévision et de radio. Les animateurs et les journalistes de ces différentes émissions sont aussi suivis de près. Lorsque des émissions radio ou TV ont lieu, des mots-clés spécifiques sont générés. C'est le cas par exemple de l'émission Quotidien sur TMC, qui communique avec sa communauté via le mot-clé #LeQuotidien. S'intéresser à ces hashtags spécifiques permet de recueillir la perception de l'audience et ses réactions face à un fait d'actualité. L'INA ne se contente pas d'archiver, il remplit ici aussi sa mission patrimoniale.

Dans la continuité de ses collections audiovisuelles (21 millions d'heures d'images et de sons), l’Ina collecte et conserve également les sites internet relevant du domaine de la communication audiovisuelle :

  • 14 380 comptes Twitter
  • 15 526 sites Web médias
  • 7 490 comptes de plateformes vidéos

(chiffres au 31 décembre 2019)

Cette activité, complémentaire des autres missions de l’Ina, est conduite par la Direction déléguée aux Collections avec pour objectif principal la constitution d’un patrimoine national audiovisuel et numérique favorisant la recherche scientifique.

Actualités

Les actualités de l'INA