Moteur de recherche de classes d’objets visuels pour l’accès et la découvrabilité au sein d’archives audiovisuelles de très grande taille
Contexte
La collaboration scientifique et technologique entre Dr Alexis Joly, Dr Jean-Christophe Lombardo, Dr Olivier Buisson et Kawtar Zaher a pour but de mettre au point des technologies permettant d’explorer de manière interactive des corpus visuels (images et vidéos) de très grandes tailles. Cette exploration permet à la fois de rechercher des contenus spécifiques qu’un utilisateur désire retrouver et aussi de créer de la connaissance sur ces corpus en associant des annotations à ces contenus.
La vision, qui nous guide pour ces travaux, est de créer des technologies fonctionnant à très large échelle (des milliards d’images et/ou des centaines de milliers d’heures de vidéo) avec des coûts de calcul et de matériels limités. Nous avons transformé ces contraintes applicatives et économiques en des verrous théoriques et technologiques. Ces travaux sont motivés et utilisés dans le cadre de deux applications différentes les archives de l’Ina et par l’Inria pour la reconnaissance de plantes sur mobiles (Pl@ntNet) :
- Dans le cas des archives l’Ina, nous devons déployer nos technologies à l’échelle de centaines de milliers d’heures de vidéo voire des millions avec des centaines d’utilisateurs en parallèle.
- Et pour le projet Pl@ntNet, il y a des millions d’images avec des millions d’utilisateurs.
Ces différents verrous théoriques et technologiques sont abordés par Dr. Alexis Joly et Dr. Olivier Buisson. De plus, ces verrous ont donné lieu pour le moment à la collaboration avec quatre thésards :
- Kawtar Zaher, “Apprentissage interactif de classes d’objets visuels pour l’accès et la découvrabilité au sein d’archives audiovisuelles de très grande taille”, 2023-....,
- Quentin Leroy : "Unsupervised and semi-supervised learning with applications to interactive exploration of audio-visual archives", 2019-2022.
- Valentin Leveau : "Spatially Consistent Nearest Neighbor Representations for Fine-Grained Classification", 2014-2017.
- Pierre Letessier : "Découverte et exploitation d'objets visuels fréquents dans des collections multimédia", 2010-2013.
Du point de vue de la mise en œuvre de ces composants technologiques, les développements pour les passages en exploitation sont effectués par le Dr Jean-Christophe Lombardo et le Dr Olivier Buisson.
Nos technologies actuelles
A ce jour, nos principaux composants technologiques sont les suivants :
- Snoop v6 : moteur visuel de recherche, d’apprentissage et de prédiction à très large échelle. Cette technologie permet à un utilisateur de formuler une requête par l’exemple (un morceau d’image représentant un logo, tableau, monument, ...) à retrouver dans des fonds d’images et de vidéos de grande taille. De plus, à partir d’une base connaissances (ensemble de classes, comme dans le cas de Pl@ntNet). Snoop a aussi des fonctionnalités d’apprentissage de réseaux profonds et de prédiction. Nos forces :
- Images et vidéos : Snoop peut gérer un corpus comportant à la fois des images et des vidéos ce qui permet de construire des liens visuels entre ces 2 types de contenus.
- L'interactivité à très large échelle, peu coûteuse en CPU et mémoire.
- Prédiction à large échelle avec des centaines de milliers d’utilisateurs par jour sur un seul serveur.
- RFLooper v2 => RFLooper (RF : Relevant Feedback) : Nous avons utilisé le concept développé pour la recherche textuelle interactive : le “Relevance Feedback” ou retour de pertinence avec des Deep Neural Networks. Nous avons introduit avec nos technologies de recherche interactive ce concept de Relevant Feedback afin de créer des bases de connaissances riches, précises et aussi de permettre à l’utilisateur de personnaliser ses recherches. Nous avons principalement travaillé sur la création de nouvelles méthodes d’Active Learning permettant à l’utilisateur de s’exprimer plus facilement et de diminuer la fatigue cognitive des méthodes de l’état de l’art. Nos forces :
- RFLooper est une surcouche de Snoop et profite donc des fonctionnalités et de la performance de Snoop.
- Il offre de nouvelles fonctionnalités de constitution rapide de bases de connaissances et d’exploitation à très large échelle.
- Technologie propriétaire que l’on peut adapter à nos besoins.
- PMH v5 : Probabilistic Multidimensional Hashing, moteur générique de recherches vectorielles permettant de réduire les coûts de calculs et de stockage des technologies comme Snoop, RFLooper, .... Ce moteur permet de diviser d’un facteur 100 à 10 000 le nombre de serveurs nécessaires pour ce type de technologies. Nos forces :
- Généricité, très large échelle (des milliards de descripteurs), peu coûteux en CPU et mémoire,
- Technologie propriétaire que l’on peut adapter à nos besoins.
Project members
Olivier Buisson (head of project, ina), Alexis Joly (researcher, inria), Jean-Christophe Lombardo (researcher, inria), Kawtar Zaher (phd student)
Past members
Julien Law-To (phd student), Sébastien Poullot (phd student), Pierre Letessier (researcher, phd student), Valentin Leveau (phd student), Quentin Leroy (phd student)
Publications list
How does the degree of novelty impacts semi-supervised representation learning for novel class retrieval?
Q. Leroy, O. Buisson and A. Joly
CoRR (abs/2208.08217), 2022 (doi)
Snoop, un moteur de recherche visuelle interactif
A. Joly, J-C. Lombardo, J-P. Moreux, Q. Leroy and O. Buisson
Culture et Recherche (141), 2020 (link)
Spatially Localized Visual Dictionary Learning
V. Leveau, A. Joly, O. Buisson and P. Valduriez
Proceedings of the 2016 ACM on International Conference on Multimedia Retrieval, ICMR 2016, New York, New York, USA, June 6-9, 2016, p. 367–370, ACM, 2016 (doi)
Shared Nearest Neighbors Match Kernel for Bird Songs Identification - LifeCLEF 2015 Challenge
A. Joly, V. Leveau, J. Champ and O. Buisson
Working Notes of CLEF 2015 - Conference and Labs of the Evaluation forum, Toulouse, France, September 8-11, 2015 (1391), CEUR-WS.org, 2015 (link)
Kernelizing Spatially Consistent Visual Matches for Fine-Grained Classification
V. Leveau, A. Joly, O. Buisson and P. Valduriez
Proceedings of the 5th ACM on International Conference on Multimedia Retrieval, Shanghai, China, June 23-26, 2015, p. 155–162, ACM, 2015 (doi)
DigInPix: Visual Named-Entities Identification in Images and Videos
P. Letessier, N. Hervé, A. Joly, H. Nabi, M. Derval and O. Buisson
Proceedings of the 5th ACM on International Conference on Multimedia Retrieval, Shanghai, China, June 23-26, 2015, p. 661–664, ACM, 2015 (doi)
Object-based visual query suggestion
A. Hamzaoui, P. Letessier, A. Joly, O. Buisson and N. Boujemaa
Multim. Tools Appl. (2) (68), p. 429–454, 2014 (doi)
Instance-based Bird Species Identification with Undiscriminant Features Pruning
A. Joly, J. Champ and O. Buisson
Working Notes for CLEF 2014 Conference, Sheffield, UK, September 15-18, 2014 (1180), p. 625–633, CEUR-WS.org, 2014 (link)
Recognizing Thousands of Legal Entities through Instance-based Visual Classification
V. Leveau, A. Joly, O. Buisson, P. Letessier and P. Valduriez
Proceedings of the ACM International Conference on Multimedia, MM ’14, Orlando, FL, USA, November 03 - 07, 2014, p. 1029–1032, ACM, 2014 (doi)
Small objects query suggestion in a large web-image collection
P. Letessier, N. Hervé, J. Champ, A. Joly, O. Buisson and A. Hamzaoui
ACM Multimedia Conference, MM ’13, Barcelona, Spain, October 21-25, 2013, p. 417–418, ACM, 2013 (doi)
Scalable mining of small visual objects
P. Letessier, O. Buisson and A. Joly
Proceedings of the 20th ACM Multimedia Conference, MM ’12, Nara, Japan, October 29 - November 02, 2012, p. 599–608, ACM, 2012 (doi)
Visual-Based Transmedia Events Detection
A. Joly, J. Champ, P. Letessier, N. Hervé, O. Buisson and M-L. Viaud
Proceedings of the 20th ACM International Conference on Multimedia, p. 1351–1352, ACM, 2012 (doi)
Random maximum margin hashing
A. Joly and O. Buisson
The 24th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2011, Colorado Springs, CO, USA, 20-25 June 2011, p. 873–880, IEEE Computer Society, 2011 (doi)
Consistent visual words mining with adaptive sampling
P. Letessier, O. Buisson and A. Joly
Proceedings of the 1st International Conference on Multimedia Retrieval, ICMR 2011, Trento, Italy, April 18 - 20, 2011, p. 49, ACM, 2011 (doi)
Interactive Classification of Sound Objects for Polyphonic Electro-Acoustic Music Annotation
S. Gulluni, S. Essid, O. Buisson and G. Richard
AES International Conference Semantic Audio 2011, Ilmenau, Germany, July 22-24, 2011, Audio Engineering Society, 2011 (link)
Scaling content-based video copy detection to very large databases
S. Poullot, O. Buisson and M. Crucianu
Multim. Tools Appl. (2) (47), p. 279–306, 2010 (doi)
Video exploration: from multimedia content analysis to interactive visualization
M-L. Viaud, O. Buisson, A. Saulnier and C. Guenais
Proceedings of the 18th International Conference on Multimedia 2010, Firenze, Italy, October 25-29, 2010, p. 1311–1314, ACM, 2010 (doi)
ViCopT: a robust system for content-based video copy detection in large databases
J. Law-To, O. Buisson, V. Gouet-Brunet and N. Boujemaa
Multim. Syst. (6) (15), p. 337–353, 2009 (doi)
Logo retrieval with a contrario visual query expansion
A. Joly and O. Buisson
Proceedings of the 17th International Conference on Multimedia 2009, Vancouver, British Columbia, Canada, October 19-24, 2009, p. 581–584, ACM, 2009 (doi)
Image collection structuring based on evidential active learner
H. Goëau, O. Buisson and M-L. Viaud
International Workshop on Content-Based Multimedia Indexing, CBMI 2008, London, UK, June 18-20, 2008, p. 388–395, IEEE, 2008 (doi)
Interactive components for visual exploration of multimedia archives
M-L. Viaud, J. Thièvre, H. Goëau, A. Saulnier and O. Buisson
Proceedings of the 7th ACM International Conference on Image and Video Retrieval, CIVR 2008, Niagara Falls, Canada, July 7-9, 2008, p. 609–616, ACM, 2008 (doi)
Scalable mining of large video databases using copy detection
S. Poullot, M. Crucianu and O. Buisson
Proceedings of the 16th International Conference on Multimedia 2008, Vancouver, British Columbia, Canada, October 26-31, 2008, p. 61–70, ACM, 2008 (doi)
A posteriori multi-probe locality sensitive hashing
A. Joly and O. Buisson
Proceedings of the 16th International Conference on Multimedia 2008, Vancouver, British Columbia, Canada, October 26-31, 2008, p. 209–218, ACM, 2008 (doi)
Fast Content-Based Mining of Web2.0 Videos
S. Poullot, M. Crucianu and O. Buisson
Advances in Multimedia Information Processing - PCM 2008, 9th Pacific Rim Conference on Multimedia, Tainan, Taiwan, December 9-13, 2008. Proceedings (5353), p. 99–108, Springer, 2008 (doi)