Aller au contenu principal
Projet OTMedia

Projet OTMedia

Observatoire Transmedia de l'actualité

L’Observatoire Transmedia est une plateforme de recherche permettant d’analyser d’importants volumes de données transmedia (TV, Radio, Web, agences de presse, twitter) multimodales, hétérogènes et liées à l’actualité française et francophone.

Contexte

Comment les nouvelles se répandent-elles aujourd'hui ? Quel est le rôle d'Internet ou de Twitter par rapport à celui des acteurs traditionnels comme la télévision, la radio et la presse ? Qui lance un « buzz » médiatique ? Qui sont les acteurs impliqués ? Quelle place occupent les images dans les médias ? Comment circulent les fake news ? Quel est l'impact de l'arrivée des chaînes d'information en continu sur les autres médias ?

Ces quelques questionnements sont autant d'exemples de thèmes sur lesquels les chercheurs en sciences humaines spécialistes des médias se penchent régulièrement. Les travaux scientifiques sur ces sujets mêlent des approches qualitatives et quantitatives sur des corpus de tailles et de périmètres variables. Si la numérisation des contenus et la multiplication des canaux de diffusion est en train de profondément transformer l’écosystème médiatique, elles ouvrent également de nouveaux champs de recherche et posent des défis méthodologiques et technologiques aux chercheurs.

L’Observatoire a été initié en 2010 dans le cadre du projet OTMedia qui fut financé par l’ANR jusqu’en 2014. Le consortium de ce projet piloté par l’INA a réuni des partenaires technologiques ainsi qu’en sciences humaines et sociales et a permis d’acquérir un savoir-faire et des outils pour le traitement en masse des médias. Cette plateforme est toujours opérationnelle, régulièrement consolidée pour permettre de prolonger nos travaux et expérimenter de nouvelles approches. Elle a notamment servi de base aux travaux présentés dans le livre « L’information à tout prix » publié en 2017.

Travaux de recherche

Les deux caractéristiques principales de notre approche sont la nécessité d'une collaboration étroite entre des chercheurs en informatique, des chercheurs en sciences humaines et des journalistes tout comme le choix de travailler sur le corpus le plus complet possible. Ainsi, OTMedia est aujourd'hui une plateforme logicielle dédiée à des travaux de recherche qui permet d'analyser de grandes quantités de données produites par les médias, sous toutes leurs formes, au plus proche du temps réel. OTMedia collecte, traite et indexe en permanence des milliers de flux provenant de la télévision, de la radio, du Web, de la presse, des agences de presse et de Twitter. Le volume (plusieurs millions de documents par an) et la diversité de sa collection ainsi que la performance de ses modules font d'OTMedia une plateforme unique. Bien qu'elle ait déjà permis des études très intéressantes dans le domaine des sciences humaines et sociales numériques, son potentiel d'exploitation n'en est qu'à ses débuts.

Le défi technologique du projet réside dans le volume mais aussi dans la diversité des sources d'information prises en compte. En ce sens, les corpus médiatiques ont des propriétés intéressantes pour les approches d'analyse automatique. Les principaux outils disponibles sont les suivants. Pour les données audio (à partir de la télévision, de la radio et des vidéos en ligne), une transcription est effectuée. Nous disposons de deux logiciels de conversion de la parole en texte, ce qui nous permet de quantifier les biais potentiels dans les analyses qui sont liés aux erreurs de transcription. Pour les images (images fixes de sites en ligne, de réseaux sociaux ou extraites de vidéos), nous utilisons plusieurs approches pour indexer et effectuer des requêtes par similarité. Notre moteur d'indexation Snoop, développé en interne, nous permet de gérer efficacement plusieurs millions d'images sans aucun problème et donc de rechercher des corpus à l'échelle de toutes les images produites par l'écosystème médiatique. Enfin, de nombreuses méthodes de traitement du langage naturel sont utilisées : extraction des entités nommées, catégorisation, extraction des mots saillants, détection des citations, plagiat, ... Des algorithmes plus spécifiques sont également mis en œuvre tels que la détection d'événements médiatiques ou encore du référencement d'un média comme source d'information.

Une fois les données collectées et analysées, arrive la phase d'étude proprement dite. Nous allons essayer de quantifier deux types de phénomènes. D'une part ceux que les chercheurs en sciences humaines connaissent et dont ils souhaitent mesurer l'ampleur, d'autre part ceux dont ils soupçonnent simplement l'existence et que l'on va chercher à mettre en évidence. Ainsi, à partir des données enrichies, différentes méthodologies sont mise en œuvre conjointement par les chercheurs en informatique et en sciences humaines pour mener à bien les études. Ces approches de fouille de données peuvent se réaliser via une application web spécialement développée sur notre plateforme ou en concevant de nouveaux outils spécifiques. Enfin, avant de pouvoir publier les résultats de nos travaux, une dernière étape indispensable est l'estimation des biais potentiels induits par l'utilisation d'algorithmes ou contenus dans les données elle-mêmes car parfois incomplètes ou bruitées. C'est une des préoccupations majeures du projet pour s'assurer de la validité des interprétations qui seront tirées de ces analyses quantitatives.

Membres du projet

Nicolas Hervé (responsable du projet), Agnès Saulnier (chercheuse), Moritz Hengel (doctorant)

Anciens participants

Marie-Luce Viaud (chercheuse), Zeynep Pehlivan (chercheuse), Jérome Thièvre (doctorant), Béatrice Mazoyer (doctorante), Haolin Ren (doctorant), Benjamin Renoust (doctorant)

Liste de publications

Comparison of Short-Text Embeddings for Unsupervised Event Detection in a Stream of Tweets
B. Mazoyer, N. Hervé, C. Hudelot et J. Cagé
Advances in Knowledge Discovery and Management: Volume 10, p. 81–97, Springer Nature Switzerland, 2024 (doi)

L’économie politique de la production et de la consommation des médias en France
M. Hengel
Thèse, 2023 (lien)

Social Media Influences the Mainstream Media
J. Cagé, N. Hervé et B. Mazoyer
CEPR Vox, juillet 2022

Hosting Media Bias: Evidence from the Universe of French Broadcasts, 2002-2020
J. Cagé, M. Hengel, N. Hervé et C. Urvoy
CEPR Workshop on Media, Technology, Politics, and Society, Working Paper, 2022 (lien)

Etude Quantitative de l’intensité Médiatique Des 6 Premiers Mois de La Pandémie Du Covid-19
N. Hervé
Les Cahiers du journalisme, 2022 (lien)

On The Pursuit of Fake News : Graph Neural Network meets NLP
Z. Pehlivan
Working Notes Proceedings of the MediaEval 2021 Workshop, Online, 13-15 December 2021 (3181), CEUR-WS.org, 2021 (lien)

Vers une modélisation du paysage médiatique francais
A. Saulnier
Actes de la conférence BDA 2021, p. 66, 2021 (lien)

Social Media and Newsroom Production Decisions
J. Cagé, N. Hervé et B. Mazoyer
NBER Political Economy, 2021

Circulation Des Vidéos de Violences Policières Entre Twitter et La Télévision
N. Hervé
Working paper, 2021

Quelle Modélisation de l’espace Politique Francais Sur Twitter ?
N. Hervé
Extraction et Gestion Des Connaissances, EGC, 2021 (lien)

Temps d’antenne, Personnalités Émergentes, Place Des Femmes : Un Bilan de l’information Sous Covid-19 à La Télé
A. Bayet, N. Hervé et D. Doukhan
La Revue des Médias, juin 2020 (lien)

Comment Didier Raoult et La Chloroquine Ont Surgi Dans Le Traitement Médiatique Du Coronavirus
A. Bayet et N. Hervé
La Revue des Médias, mars 2020 (lien)

Information à La Télé et Coronavirus : L’INA a Mesuré Le Temps d’antenne Historique Consacré Au Covid-19
A. Bayet et N. Hervé
La Revue des Médias, mars 2020 (lien)

On the pursuit of Fake News : From Graph Convolutional Networks to Time Series
Z. Pehlivan
Working Notes Proceedings of the MediaEval 2020 Workshop, Online, 14-15 December 2020 (2882), CEUR-WS.org, 2020 (lien)

The Production of Information in an Online World
J. Cagé, N. Hervé et M-L. Viaud
The Review of Economic Studies (5) (87), p. 2126–2164, 2020 (doi)

Coronavirus - Étude de l’intensité Médiatique
N. Hervé
2020

OTMedia, l’observatoire Transmédia de l’actualité
N. Hervé
Culture et Recherche (141), 2020 (lien)

A French Corpus for Event Detection on Twitter
B. Mazoyer, J. Cagé, N. Hervé et C. Hudelot
Language Resources and Evaluation Conference, LREC, 2020 (lien)

Représentations Lexicales Pour La Détection Non Supervisée d’événements Dans Un Flux de Tweets : Étude Sur Des Corpus Francais et Anglais
B. Mazoyer, N. Hervé, C. Hudelot et J. Cagé
Extraction et Gestion Des Connaissances, EGC, 2020 (lien)

Incendie de l’usine Lubrizol à Rouen et Mort de Jacques Chirac : Comment Les Chaines Info Ont Traité d’une Double Actualité
J. Labracherie et N. Hervé
La Revue des Médias, octobre 2019 (lien)

Les Gilets Jaunes , Trou Noir Médiatique
R. Poirot et N. Hervé
La Revue des Médias, juillet 2019 (lien)

OTMedia, the TransMedia News Observatory
N. Hervé
FIAT/IFTA Media Management Seminar 2019, 2019 (lien)

Réduire Les Biais Dans La Collecte de Tweets
B. Mazoyer, N. Hervé, C. Hudelot et J. Cagé
EGC, Journée DAHLIA : "Informatique et Humanités Numériques : Quelles Problématiques Pour Quels Domaines ?", 2019 (lien)

Real-Time Collection of Reliable and Representative Tweets Datasets Related to News Events
B. Mazoyer, J. Cagé, C. Hudelot et M-L. Viaud
Proceedings of the First International Workshop on Analysis of Broad Dynamic Topics over Social Media (BroDyn 2018) co-located with the 40th European Conference on Information Retrieval (ECIR 2018), Grenoble, France, March 26, 2018 (2078), p. 23–34, CEUR-WS.org, 2018 (lien)

Mainmise sur les médias et suivi de communautés dans les graphes dynamiques
H. Ren, M-L. Viaud et G. Melançon
Extraction et Gestion des Connaissances, EGC 2018, Paris, France, January 23-26, 2018 (E-34), p. 451–454, Éditions RNTI, 2018 (lien)

Exploring Temporal Communities in Mass Media Archives
H. Ren, B. Renoust, G. Melançon, M-L. Viaud et S. Satoh
2018 ACM Multimedia Conference on Multimedia Conference, MM 2018, Seoul, Republic of Korea, October 22-26, 2018, p. 1247–1249, ACM, 2018 (doi)

OTMedia : Outils de Fouille Multimodales Transmedia de l’actualité
M-L. Viaud, A. Saulnier, N. Hervé, B. Renoust et J. Thièvre
En Quete d’archives : Bricolages Méthodologiques En Terrains Médiatiques, Ina Editions, 2018 (lien)

"Them again?" Dynamic Communities in the Media
H. Ren, M-L. Viaud et G. Melançon
19th Eurographics Conference on Visualization, EuroVis 2017 - Posters, Barcelona, Spain, June 12-16, 2017, p. 77–79, Eurographics Association, 2017 (doi)

The Commercial Value of News in the Internet Era
J. Cagé, N. Hervé et M-L. Viaud
CEPR, 2017 (lien)

L’information à Tout Prix
J. Cagé, N. Hervé et M-L. Viaud
Ina Editions, 2017 (lien)

Analyse Des Media Francais: Quand l’économie Rencontre La Fouille de Donnée
M-L. Viaud, N. Hervé et J. Cagé
Actes de l’atelier Journalisme Computationnel 2017, p. 25, 2017 (lien)

Étude des influences réciproques entre médias sociaux et médias traditionnels
B. Mazoyer, N. Turenne et M-L. Viaud
atelier Journalisme Computationnel, 2017

The Production of Information in an Online World: Is Copy Right?
J. Cagé, N. Hervé et M-L. Viaud
Economics of Media and Communications Conference, 2016 (doi)

Fouille Au Corps Des Media Francais: Un Exemple Concret de Fouille Multimodale Transmedia
M-L. Viaud, A. Saulnier, D. Teyssou, N. Hervé, B. Renoust et J. Thièvre
Revue des Nouvelles Technologies de l’Information (RNTI-SHS-2), p. 101–124, 2014 (lien)

OTMedia: the French TransMedia News Observatory
N. Hervé, M-L. Viaud, J. Thièvre, A. Saulnier, J. Champ, P. Letessier, O. Buisson et A. Joly
ACM Multimedia Conference, MM ’13, Barcelona, Spain, October 21-25, 2013, p. 441–442, ACM, 2013 (doi)

Small objects query suggestion in a large web-image collection
P. Letessier, N. Hervé, J. Champ, A. Joly, O. Buisson et A. Hamzaoui
ACM Multimedia Conference, MM ’13, Barcelona, Spain, October 21-25, 2013, p. 417–418, ACM, 2013 (doi)

Visual-Based Transmedia Events Detection
A. Joly, J. Champ, P. Letessier, N. Hervé, O. Buisson et M-L. Viaud
Proceedings of the 20th ACM International Conference on Multimedia, p. 1351–1352, ACM, 2012 (doi)