Entre sciences de l’informatique et histoire, ce projet de recherche interdisciplinaire explore les potentialités offertes par les sciences de l’informatique pour l’analyse des données du web archivé et l’histoire des médias numériques. Porté par Sophie Gebeil et Line Jamet-Jakubiec, l’objectif est de développer et à utiliser des programmes, des outils, dont IA, pour automatiser des tâches dans le traitement des données et ainsi en extraire les principales tendances, tout en réfléchissant aux implications épistémologiques d’une telle démarche.
Automatiser l’analyse des données du web archivé en histoire
Ce projet porté par Sophie Gebeil et Line Jamet-Jakubiec s’intéresse à l’exploitation des données du Web archivé, notamment celles qui sont conservées par la BNF et l’INA dans le cadre du dépôt légal du Web français créé en 2006. Les sources numériques sont nombreuses et variées, tout comme le format des données à exploiter. L’objectif du projet est de fournir aux chercheurs en sciences humaines des programmes et des outils leur permettant d’exploiter et d’analyser de vastes corpus de données issues du Web dans le cadre du projet IUF « l’archivage du web, un défi historiographique : entre fragmentation est médiation ».
Parmi les développements informatiques qu’il est envisagé de mettre en place dans le cadre de ce projet, l’utilisation et programmation d’une IA pour traiter les données et en extraire des tendances (chatbot, outils prévisionnels, textes générés automatiquement à partir d’autres textes, graphiques de tendances, outils de navigation), développement de scripts pour traiter les différents formats des données mis à disposition, utilisation de frameworks dédiés (Django ou MongoDB par exemple) pour créer des bases de données appropriées, selon les besoins qui seront exprimés. Le choix des langages de programmation sera discuté avec les différents intervenants du projet: Python (pour sa polyvalence et ses bibliothèques), Java ou C++ (pour leurs performances et leurs bibliothèques), Javascript (pour sa facilité d’intégration des outils d’IA), Rust (pour sa fiabilité), R (pour ses modèles statistiques avancées)…
Trois ans de collaboration interdisciplinaire autour du Web archivé
Au sein de l’atelier visual studies et humanités numériques en Méditerranée, une première exploration de traitement des données automatisées avait été réalisée dans le cadre du projet « Ecrans en lutte, mémoires des mouvements sociaux sur les WebTV françaises depuis la fin des années 1990 », lauréat de l’appel à chercheur associé de l’Ina (2018-2019). À partir d’un corpus de 58 sites web de télévision militante française archivées par l’Ina constitué sur une période de cinq ans (de mai 2010 à mai 2015), une méthodologie un processus d’extraction d’informations a été mis au point par l’INA. A partir des fichiers HTML du corpus, la collaboration avec l’Ina et l’implication de l’ entreprise Gamuza, une chaîne de traitement a été développée afin de permettre l’extraction puis l’identification des principales caractéristiques et évolutions observées durant ces cinq années. En novembre 2021, l’inauguration du CEDRE AMU fût l’occasion d’une première discussion dans le cadre du projet PICCH, avec Mathieu Génois, physicien spécialisé dans l’analyse de réseaux. Cela se concrétise par l’exploration du corpus traitant du trentième anniversaire de la Marche pour l’égalité et contre le racisme (2013) archivé par l’Ina, à travers le stage et la co-direction interdisciplinaire du mémoire de master de Davide Rendina (Patrice Bellot LIS, Sophie Gebeil, Mathieu Génois) centré sur l’analyse sémantique des données, entre sciences de l’informatique et histoire, soutenu en août 2023. Lors de la rentrée, des offres de stage sont proposées par le laboratoire TELEMMe pour prolonger l’analyse des données du web archivées concernant la Marche de 1983. Deux étudiants en licence Sciences de l’informatique d’AMU sont alors recrutés durant l’année universitaire 2023/2024, impulsant une première collaboration avec Line Jamet-Jakubiec, maîtresse de conférences au LIS et responsable de la Licence Informatique. A partir de cette expérience concluante, L. Jamet-Jakubiec et S. Gebeil travaillent à la rédaction du présent projet de recherche interdisciplinaire, qui coïncide avec la création du WebLab en 2024. Le séminaire de 2025/2025 a été l’occasion d’échanges fructueux avec les équipes de la BnF et de l’Ina, permettant de mettre en place un cadre sécurisé sur le plan juridique pour prolonger l’exploration des données. Deux corpus sont alors identifiés : le site du journal indépendant Marsactu archivé par la BnF, et celui du site France Info TV archivé par l’Ina.
Former par la recherche : les stages 2026
En ce premier semestre 2026, les laboratoires TELEMMe et le LIS accueilleront des stagiaires en science de l’informatique d’informatique qui participeront au développement de programmes permettant de traiter et d’analyser des corpus issus des archives du Web conservées par la BnF et l’INA. Sous la direction de Line Jamet-Jakubiec et de Sophie Gebeil, elles et ils contribueront à la mise d’outils adaptés aux besoins des chercheurs, ainsi qu’à l’intégration d’outils dits d’intelligence artificielle pour le nettoyage, ou l’extraction de tendances ou encore la navigation dans les données. Elles et ils pourront réaliser des scripts de traitement automatique pour différents formats de données et participera à l’analyse et à la visualisation des résultats. Elles et ils auront l’occasion de présenter ce travail dans le cadre du WebLab et contribueront ainsi à la rédaction d’une documentation technique.
Les compétences visées concernent aussi bien le domaine de l’archivage du web que les sciences de l’informatique :
- programmation avancée appliquée à des corpus issus du Web archivé,
- maîtrise de techniques d’extraction de données, de construction de bases de données et d’intégration d’outils d’IA,
- approfondissement des méthodes d’analyse computationnelle pour les sciences humaines et des pratiques de documentation scientifique,
- découverte de l’état de l’art des programmes informatiques dédiés à l’analyse des données du web archivé.
Références citées :
Gebeil, Sophie, and Jérôme Thièvre. “From Archived Web Corpus to Readable Data for History Research.” In The Routledge Companion to Transnational Web Archive Studies, 361. Taylor & Francis, 2024. https://www.routledge.com/The-Routledge-Companion-to-Transnational-Web-Archive-Studies/Aasman-Ben-David-Brugger/p/book/9781032497785
Rendina Davide, Gebeil Sophie, Génois Mathieu et Bellot Patrice, 2024, « Semantic analysis of web archive historical data » dans Exploring the Archived Web during a Highly Transformative Age Proceedings of the 5th international RESAW conference, Marseille, June 2023, s.l.10.36253/979-12-215-0413-2.22
AI and the Analysis of Archived Web Data: At the Intersection of Computer Science and Digital History
At the crossroads of computer science and history, this interdisciplinary research project explores the potential of computational methods for analyzing archived web data and studying the history of digital media. Led by Sophie Gebeil and Line Jamet-Jakubiec, the project aims to develop and use programs and tools, including AI, to automate data processing tasks and extract major trends, while also reflecting on the epistemological implications of such an approach.
Automating the Analysis of Archived Web Data in History
This project, led by Sophie Gebeil and Line Jamet-Jakubiec, focuses on the use of archived web data, particularly materials preserved by the Bibliothèque nationale de France and the Institut national de l’audiovisuel as part of the legal deposit of the French web established in 2006. Digital sources are abundant and diverse, as are the formats in which the data are made available.
The goal is to provide humanities scholars with programs and tools that enable them to explore and analyze large-scale web corpora within the framework of the IUF project “Web Archiving as a Historiographical Challenge: Between Fragmentation and Mediation.”
Among the planned technical developments are the use and programming of AI systems to process data and extract trends, including chatbots, predictive tools, automatically generated texts based on other texts, trend visualizations, and navigation tools. The project also involves developing scripts to handle the various data formats provided, and using dedicated frameworks such as Django or MongoDB to build databases tailored to research needs. The choice of programming languages will be discussed with project partners and may include Python for its versatility and extensive libraries, Java or C++ for performance, JavaScript for ease of AI tool integration, Rust for reliability, and R for advanced statistical modeling.
Three Years of Interdisciplinary Collaboration Around Archived Web Data
Within the Visual Studies and Digital Humanities in the Mediterranean workshop, an initial exploration of automated data processing was conducted as part of the project “Screens in Struggle: Memories of Social Movements on French Web TV Since the Late 1990s,” which received the Associated Researcher Award from the INA in 2018–2019. Based on a corpus of 58 French activist web TV sites archived by the Institut national de l’audiovisuel over a five-year period from May 2010 to May 2015, a methodology and information extraction process was developed by the INA. Using the corpus HTML files, and through collaboration with the INA and the company Gamuza, a processing pipeline was designed to enable the extraction and identification of the main characteristics and developments observed during those five years.
In November 2021, the inauguration of CEDRE AMU provided an opportunity for an initial discussion within the PICCH project, in collaboration with Mathieu Génois, a physicist specializing in network analysis. This collaboration led to the exploration of a corpus related to the thirtieth anniversary of the 1983 March for Equality and Against Racism, archived by the Institut National de l’Audiovisuel. The work took shape through an internship and the interdisciplinary co-supervision of Davide Rendina’s master’s thesis, centered on the semantic analysis of data at the intersection of computer science and history, which was defended in August 2023.
At the start of the following academic year, internship opportunities were offered by the TELEMMe laboratory to extend the analysis of archived web data related to the 1983 March. Two undergraduate computer science students from AMU were recruited during the 2023–2024 academic year, initiating a first collaboration with Line Jamet-Jakubiec, Associate Professor at LIS and head of the Computer Science undergraduate program. Building on this successful experience, L. Jamet-Jakubiec and S. Gebeil began drafting the present interdisciplinary research project, which coincided with the creation of the WebLab in 2024.
The 2025–2026 seminar series enabled productive exchanges with teams from the Bibliothèque nationale de France and the Institut national de l’audiovisuel, leading to the establishment of a legally secure framework for continuing data exploration. Two corpora were identified: the independent news site Marsactu, archived by the BnF, and the France Info TV website, archived by the INA.
Training Through Research: 2026 Internships
In the first semester of 2026, the TELEMMe and LIS laboratories will host computer science interns who will contribute to the development of programs designed to process and analyze web archive corpora preserved by the Bibliothèque nationale de France and the Institut national de l’audiovisuel. Under the supervision of Line Jamet-Jakubiec and Sophie Gebeil, they will help design tools tailored to researchers’ needs and integrate AI-based tools for data cleaning, trend extraction, and navigation.
They will develop automated processing scripts for different data formats and participate in analyzing and visualizing results. They will also have the opportunity to present their work as part of the WebLab and contribute to the drafting of technical documentation.
The targeted skills span both web archiving and computer science:
-Advanced programming applied to corpora drawn from archived web data
-Mastery of data extraction techniques, database construction, and AI tool integration
-Deeper knowledge of computational methods for the humanities and of scientific documentation practices
-Exploration of the current state of the art in software dedicated to analyzing archived web data