Séance n° 2 du séminaire WebLab – Humathèque Condorcet Le Web et les archives du Web pour la recherche en SHS : savoirs, méthodes et outils pour la collecte, l’analyse et la pérennisation de corpus en ligne

Date : Jeudi 27 novembre de 14h à 16h

Lieu : Salle Michel Seurat – Médiathèque de la MMSH et en visioconférence

Lien de connexion sur inscription

Pour s’inscrire : https://evento.renater.fr/survey/inscription-seance-2…-rtg28yx8

Programme de la séance

L’archivage du web français à l’ère de l’IA : institutions patrimoniales et collaborations académiques

Instauré en 2006 par la loi DADVSI, le dépôt légal du Web français est collecté et archivé par la Bibliothèque nationale de France (BnF) et l’Institut National de l’audiovisuel (INA). Ces deux institutions se répartissent cette mission patrimoniale selon des périmètres spécifiques et des organisations différentes. Lors de cette séance, Géraldine Camile (BnF) et Jérôme Thièvre (INA) nous feront découvrir les rouages de l’archivage du Web, entre choix stratégiques, contraintes techniques et vocation patrimoniale. Ils présenteront les possibilités de collaboration entre leurs équipes et les communautés académiques. Cette rencontre sera également l’occasion de questionner l’impact des technologies dites d’intelligence artificielle dans le domaine de l’archivage du Web au sein de ces deux institutions dépositaires.

Intervenante et intervenant

Géraldine Camile, Bibliothèque nationale de France, membre de l’équipe BnF DataLab

Géraldine Camile, L’archivage du web français à l’ère de l’IA Télécharger

Jérôme Thièvre, Responsable Entrée & Collecte du Web, Institut national de l’audiovisuel

Jérôme Thievre, Dépôt Légal du Web de l’Ina Télécharger

Compte Rendu de la Séance

Le séminaire animé par le WebLab a accueilli ce jeudi 27 novembre Jérôme Thièvre, responsable de l’entrée de la collecte du webmedia à l’Institut National de l’Audiovisuel et Géraldine Camile, membre de l’équipe DataLab à la Blibliothèque Nationale de France.

Jérôme Thièvre est revenu sur l’histoire et le fonctionnement du dépôt légal du web. L’INA, dont la mission de conservation remonte à 1974, a vu son rôle évoluer avec la loi de 1992, qui a étendu son activité vers la valorisation des dépôts radio et télé au bénéfice des chercheurs et des étudiants. En 1995, la création d’INAthèque a permis la consultation de ces fonds, et en 2009 l’archivage du web a démarré, marqué plus tard par la création, en 2022, d’un laboratoire destiné à accompagner les chercheurs.

Le cadre juridique actuel repose sur la loi DADVSI de 2006 et sur le décret de 2011 portant sur le dépôt légal de l’internet. Il précise que les contenus archivés restent la propriété de leurs auteurs et que leur consultation est fortement encadrée, répartie dans une cinquantaine de bibliothèques et médiathèques partenaires. Le périmètre couvre l’audiovisuel au sens large, de la télévision et de la radio aux médias natifs du web, comme YouTube, les plateformes de podcast, le replay, mais aussi certains sites d’actualité et même des chaînes sur les réseaux sociaux.

L’INA archive ainsi des sites web, des chaînes de plateformes et des actualités publiées sur Twitter. Dès 2009, la collecte s’est étendue à YouTube, déjà incontournable, ce qui permet aujourd’hui de retracer des contenus parfois disparus. Le travail de collecte dépend étroitement d’un patient travail d’identification effectué par les documentalistes. Au total, environ 30 000 sites ont été archivés, en particulier ceux liés à la télévision, à la radio ou à leurs communautés de spectateurs, amateurs comme professionnels. Grâce à des récupérations depuis Internet Archive, certaines pages peuvent remonter au début des années 2000. L’ensemble représente environ vingt milliards de pages archivées.

Les volumes audiovisuels sont tout aussi impressionnants : quarante-deux millions de vidéos collectées grâce à des robots spécialisés par plateforme, et une attention particulière portée aux catalogues des diffuseurs comme Arte. L’objectif reste d’obtenir une représentation fidèle et pertinente du paysage audiovisuel en ligne, malgré les limites imposées depuis septembre 2024 à la collecte sur YouTube. L’INA conserve aussi environ cinq millions de fichiers audios issus de trente mille chaînes ou émissions. Depuis 2014, un archivage spécifique des réseaux sociaux s’est développé, concentré d’abord sur Twitter, avec plus de trois milliards de tweets sélectionnés selon des critères liés à l’actualité médiatique, aux événements majeurs ou aux comptes institutionnels. Plus récemment, l’INA a commencé à collecter sur Bluesky, réseau dont l’ouverture facilite la récupération de données.

Le dépôt légal ne s’applique toutefois pas aux plateformes bénéficiant du statut d’hébergeur : YouTube n’a par exemple aucune obligation particulière envers le dépôt légal, ce qui complique l’accès aux données et peut empêcher certaines collectes. Parmi les projets en cours, l’INA souhaite développer la collecte des contenus de SVOD (Netflix, Canal+) de plus en plus présents dans les foyers, ainsi que des streams en direct sur Twitch, YouTube Live ou les chaînes FAST. Les moteurs de recherche et applications internes continuent d’être mis à jour pour suivre l’évolution des formats.

Les archives WebMedia conservées à Paris permettent de consulter une URL telle qu’elle apparaissait à une date précise, avec ses images, sons, vidéos et scripts. Les éléments interactifs restent parfois imparfaitement capturés, mais peuvent souvent être retrouvés dans des archives séparées.

Le Lab de l’INA a pour mission d’accompagner les universitaires en leur fournissant expertise documentaire, outils et données. Il propose un suivi méthodologique, organise des résidences pour des projets sélectionnés par un comité scientifique, met à disposition des corpus et anime la vie scientifique à travers ateliers et séminaires. Le Lab a déjà accueilli plus d’une centaine de chercheurs et soutenu plus de quatre-vingts projets, même si le web ne représente qu’une faible part des demandes. Toute demande d’export de données est examinée à la fois scientifiquement et juridiquement, puis encadrée par une licence d’utilisation qui définit précisément ce qu’il est possible d’en faire.

Le développement de l’IA à l’INA, piloté par l’équipe 2IA, se montre être un outil particulièrement intéressant pour l’analyse de contenu, comme la transcription, l’extraction d’entités nommées, la reconnaissance des visages, des voix ou des objets.

L’accès aux données devient toutefois de plus en plus difficile, les plateformes renforçant leurs protections pour éviter l’aspiration massive de contenus par des acteurs tiers ou par les IA. Les données archivées, stockées sur deux sites en copie double, représentent moins de quatre pétaoctets, un volume important mais encore gérable, bien que coûteux en énergie. Enfin, la collecte et la consultation reposent sur une équipe réduite, composée de sept ingénieurs et d’un responsable documentaire entouré d’une petite équipe dédiée.

De son côté, Géraldine Camile, explique que BNF s’intéresse très tôt aux archives du web et participe dès 2003 à un consortium international visant à conserver l’internet mondial. Dans le cadre du dépôt légal, elle a la charge de collecter l’ensemble des contenus relevant de son périmètre, à l’exception de la radio et de la télévision, confiées à l’INA. Les données recueillies sont considérées comme patrimoniales, ce qui permet de les conserver sans demander l’accord des auteurs, tant que les sites relèvent du web français. La définition du “web français” repose sur deux critères : l’hébergeur ou le producteur doit être établi en France, ce qui délimite clairement le périmètre du dépôt légal géré par la BNF.

La collecte couvre une grande diversité de ressources, qu’il s’agisse de journaux en PDF, de livres numériques, de sites d’art ou de littérature en ligne, de pages liées à des événements marquants, ou encore de réseaux sociaux et de sites représentatifs de la variété du web, des jeux en ligne à Leboncoin. Une même adresse peut être collectée à plusieurs dates : l’archive produite n’est jamais une copie parfaite, mais une reconstitution fidèle à partir des éléments capturés. La BNF utilise pour cela des robots d’exploration et veille à compléter ses collections avec tous types de sites, formats et pratiques du web.

Deux logiques de collecte coexistent. La première, dite large, est menée une fois par an et vise à aspirer un maximum de sites à partir des données fournies par les hébergeurs français, comme l’AFNIC ou OVH. La seconde est une collecte ciblée, alignée sur les priorités documentaires de la BNF et de plus en plus structurée en projets, par exemple autour du Covid, de l’actualité ou de l’environnement. Le choix des sites ne suit aucune ligne scientifique, esthétique ou morale : l’objectif est d’être représentatif, non exhaustif, et cela implique une forme d’arbitrage intellectuel que l’automatisation ne peut remplacer.

La BNF utilise notamment le robot Heritrix, qui part d’une liste d’URL et explore les liens présents dans le code source des pages. Les archives peuvent être consultées dans vingt-deux bibliothèques partenaires à travers le pays. Les chercheurs peuvent y accéder de plusieurs manières : en passant par la Wayback Machine lorsque l’URL est connue, en explorant des parcours guidés élaborés par les bibliothécaires ou en utilisant l’application Archives de l’internet Labs, qui propose une recherche en plein texte. Les archives peuvent être citées dans les travaux, bien que leur réutilisation soit strictement encadrée. La BNF comme l’INA accueille également des chercheurs associés dont les projets s’appuient sur les collections web, et collabore avec Humanum à travers son datalab.

Pour la recherche, ces archives permettent de retrouver des sites disparus, de vérifier la conservation de contenus étudiés ou encore de co-construire des collectes en partenariat avec des équipes scientifiques. Elles servent aussi à indexer des ensembles massifs, explorer les métadonnées et constituer des corpus adaptés à des projets spécifiques. Une grande part du travail de la BNF consiste à accompagner les chercheurs sur le plan méthodologique afin de faciliter l’usage de ces ressources encore peu familières.

L’Intelligence artificielle intervient essentiellement dans la création de parcours thématiques guidés, même si la sélection finale reste humaine. Les évolutions rapides du web, et en particulier la fermeture de certaines plateformes face aux enjeux liés à l’IA, compliquent le travail de collecte. Les IA génératives ne sont pas considérées comme des profils spécifiques à archiver, mais il est possible d’enregistrer des sessions d’utilisation. L’IA est davantage présente dans des projets de recherche associés, comme AdaptMed, qui explore la génération automatique de reformulations dans le domaine médical, même si elle n’est pas appliquée directement sur l’ensemble des archives.
La BNF travaille néanmoins sur une feuille de route dédiée à l’IA, structurée autour de cinq axes, allant de la définition d’une stratégie à la préparation des infrastructures, en passant par l’acquisition de nouvelles compétences et la mise en place d’un programme de recherche pluriannuel.

Les limites juridiques restent importantes : ces archives sont protégées par le droit d’auteur, ce qui empêche d’utiliser librement des outils externes pour analyser les données.

[Seminar] French Web Archiving in the Age of AI: Heritage Institutions and Academic Collaborations

Session 2 of the WebLab – Humathèque Condorcet seminar The Web and Web Archives for Research in the Social Sciences and Humanities: Knowledge, Methods, and Tools for Collecting, Analyzing, and Preserving Online Corpora

Date: Thursday, November 27, 2:00–4:00 PM

Session Program

French Web Archiving in the Age of AI: Heritage Institutions and Academic Collaborations

Established in 2006 by the DADVSI law, the legal deposit of the French web is collected and archived by the Bibliothèque nationale de France (BnF) and the National Audiovisual Institute (INA). These two institutions share this heritage mission according to specific scopes and different organizational structures. During this session, Géraldine Camile (BnF) and Jérôme Thièvre (INA) will provide insight into the workings of web archiving, covering strategic choices, technical constraints, and heritage responsibilities. They will also present opportunities for collaboration between their teams and academic communities. This meeting will be an opportunity to discuss the impact of so-called artificial intelligence technologies on web archiving within these two custodial institutions.

Speakers

Géraldine Camile, Bibliothèque nationale de France, member of the BnF DataLab team
Jérôme Thièvre, Head of Web Ingestion and Collection, National Audiovisual Institute

Report of the Session

The seminar hosted by WebLab on Thursday, November 27 welcomed Jérôme Thièvre, Head of Webmedia Collection Intake at the National Audiovisual Institute (Institut National de l’Audiovisuel, INA), and Géraldine Camile, member of the DataLab team at the National Library of France (Bibliothèque Nationale de France, BNF).

Jérôme Thièvre began by outlining the history and functioning of the legal deposit of the web. INA, whose preservation mission dates back to 1974, saw its role evolve with the 1992 law that expanded its activity toward making radio and television deposits available to researchers and students. In 1995, the creation of INAthèque enabled consultation of its holdings, and in 2009 web archiving began, later strengthened in 2022 with the creation of a research laboratory dedicated to supporting scholars.

The current legal framework is based on the 2006 DADVSI law and the 2011 decree on the legal deposit of the internet. It specifies that archived content remains the property of its authors and that consultation is strictly regulated, accessible across about fifty partner libraries and media libraries. The scope covers audiovisual media in the broad sense, from television and radio to native web media such as YouTube, podcast platforms, replay services, as well as certain news sites and even social media channels.

INA therefore archives websites, platform channels, and news items published on Twitter. As early as 2009, collection extended to YouTube, already essential at the time, which today makes it possible to retrieve content that has sometimes disappeared. The collection process depends heavily on meticulous identification work carried out by documentalists. In total, around 30,000 sites have been archived, particularly those linked to television, radio, or their communities of viewers, both amateur and professional. Thanks to recoveries from Internet Archive, some pages go back to the early 2000s. Altogether, the archive represents around twenty billion pages.

The audiovisual volumes are equally impressive: forty-two million videos collected using platform-specific robots, with particular attention paid to broadcaster catalogs such as Arte. The goal remains to obtain a faithful and relevant representation of the online audiovisual landscape, despite the limitations imposed since September 2024 on collecting from YouTube. INA also preserves around five million audio files from thirty thousand channels or programs. Since 2014, a dedicated social media archive has been developed, initially focused on Twitter, with more than three billion tweets selected according to criteria related to media coverage, major events, or institutional accounts. More recently, INA has begun collecting on Bluesky, whose open design facilitates data retrieval.

However, the legal deposit does not apply to platforms with host status: YouTube, for example, has no particular obligation toward the legal deposit, which complicates data access and can prevent certain types of collection. Among its ongoing projects, INA seeks to develop collection of SVOD content (Netflix, Canal+), increasingly present in households, as well as live streams on Twitch, YouTube Live, or FAST channels. Search engines and internal applications continue to be updated to keep pace with evolving formats.

The WebMedia archives preserved in Paris allow users to view a URL as it appeared on a specific date, with its images, audio, video, and scripts. Interactive elements are sometimes imperfectly captured but can often be retrieved from separate archives.

INA’s Lab supports scholars by providing them with documentary expertise, tools, and data. It offers methodological guidance, organizes residencies for projects selected by a scientific committee, provides corpora, and contributes to academic life through workshops and seminars. The Lab has already hosted more than one hundred researchers and supported over eighty projects, even though the web remains a small share of requests. Any data export request undergoes both scientific and legal review and is governed by a usage license specifying permitted uses.

The development of AI at INA, led by the 2IA team, has proven particularly valuable for content analysis, including transcription, named-entity extraction, and face, voice, or object recognition.

Access to data is nevertheless becoming increasingly difficult, as platforms strengthen protections to prevent large-scale scraping by third parties or by AI systems. The archived data, stored redundantly at two sites, amounts to under four petabytes, large but still manageable, though energy-intensive. Finally, collection and consultation rely on a small team composed of seven engineers and one documentary lead supported by a small dedicated staff.

For her part, Géraldine Camile explained that the BNF became interested in web archives very early and has participated in an international consortium aimed at preserving the global internet since 2003. Within the framework of legal deposit, it is responsible for collecting all content within its scope, except for radio and television, which fall under INA. The collected data are considered heritage materials, allowing the BNF to preserve them without seeking authors’ consent, as long as the sites fall within the French web. The definition of the “French web” is based on two criteria: the host or producer must be established in France, which clearly delineates the BNF’s legal deposit perimeter.

The collection covers a wide variety of resources, including PDF newspapers, e-books, online art or literature sites, pages related to major events, social media, and sites representative of the diversity of the web, from online games to second-hand sales website. The same address may be collected at multiple dates: the resulting archive is never a perfect copy but a faithful reconstruction based on the captured elements. The BNF uses crawler robots and ensures its collections include all types of sites, formats, and web practices.

Two collection approaches coexist. The first, known as broad crawling, occurs once a year and aims to capture as many sites as possible using data from French hosts such as AFNIC or OVH. The second is targeted collection, aligned with the BNF’s documentary priorities and increasingly structured as thematic projects, for example, around Covid, current affairs, or environmental issues. The selection of sites follows no scientific, aesthetic, or moral line: the goal is to be representative, not exhaustive, which requires intellectual arbitration that automation cannot replace.

The BNF uses the Heritrix crawler, which starts from a list of URLs and explores links found in the page source code. The archives can be consulted in twenty-two partner libraries across the country. Researchers can access them in several ways: via the Wayback Machine when the URL is known, through curated paths developed by librarians, or using the Internet Archives Labs application, which offers full-text search. Archived materials may be cited in academic work, although reuse remains strictly regulated. Both the BNF and INA also host affiliated researchers whose projects draw on web collections, and they collaborate with Huma-Num through its datalab.

For research, these archives make it possible to recover disappeared sites, verify the preservation of studied content, or co-construct collections in collaboration with academic teams. They are also used to index large datasets, explore metadata, and build corpora tailored to specific projects. A major part of the BNF’s work consists in supporting researchers methodologically to facilitate the use of these still relatively unfamiliar resources.

AI is primarily used in creating thematic guided paths, although the final selection remains human. Rapid changes in the web, particularly the increasing closure of platforms in response to AI-related challenges, complicate collection efforts. Generative AIs are not considered specific profiles to archive, but sessions of use can be recorded. AI appears more prominently in associated research projects, such as AdaptMed, which explores automatic generation of reformulations in the medical domain, although it is not applied directly to the entire archive.

The BNF is nonetheless developing an AI roadmap structured around five axes, ranging from defining a strategy to preparing infrastructures, acquiring new competencies, and establishing a multi-year research program.

Legal constraints remain significant: these archives are protected by copyright, which prevents the free use of external tools to analyze the data.

[Séminaire] L’archivage du web français à l’ère de l’IA : institutions patrimoniales et collaborations académiques