Mercredi 3 décembre 14h-16h
Séance n° 3 du séminaire WebLab – Humathèque Condorcet Le Web et les archives du Web pour la recherche en SHS : savoirs, méthodes et outils pour la collecte, l’analyse et la pérennisation de corpus en ligne
Durant cette séance, nous accueillerons Stéphane Pouyllau, cofondateur d’Huma-Num, ISIDORE et NAKALA, est responsable du Huma-Num Lab (HN Lab), pôle de recherche, d’innovation et de valorisation de l’infrastructure Huma-Num. À partir de l’expérience du HN Lab, il présentera les orientations actuelles, les expérimentations en cours, ainsi que les enjeux techniques et collaboratifs liés à la collecte, à l’archivage et à la valorisation des données du Web pour le SHS.
A cette occasion nous recevrons également Shiwei Li (AMU, IRASIA ), Maître de conférences en Langue et littérature Chinoises à l’IRASIA (UMR 7306 AMU-CNRS), responsable du projet «Genre en Asie» et membre du Conseil scientifique de CoREF.
Le Web statique pour faciliter l’archivage : réflexions et expérimentations au sein du Huma-Num Lab
Stéphane Pouyllau (HN Lab, Huma-Num), en visioconférence
Cette présentation sera articulée à partir de l’expérience du HN Lab. Stephane Pouyllau présentera les orientations actuelles, les expérimentations en cours, ainsi que les enjeux techniques liés à l’édition Web “low-tech” (autour du Web statique) dans la perspective d’en faciliter l’archivage et la découvrabilité.
Diaporama de la présentation :
Pouyllau, S. (2025). Enjeux techniques et collaboratifs liés à la collecte, à l’archivage et à la valorisation des données du Web pour le SHS. De l’archivage à la stratification des sites web : expérimentations techniques et usages en SHS, Aix-en-Provence. Zenodo. https://doi.org/10.5281/zenodo.17863360
Compte Rendu de la communication :
Stéphane Pouyllau a construit des sites web pendant plusieurs années pour diffuser la recherche, mais il questionne désormais la pertinence de cette méthode. Avec Huma-Num, l’infrastructure qu’il a cofondée, l’objectif principal est de stabiliser et conserver les données de recherche plutôt que les sites eux-mêmes, qui sont considérés comme de simples espaces de publication. La conservation porte sur les données, notamment via Nakala, le stockage à long terme du CINES et les Archives nationales.
La question de l’archivage des sites web est devenue importante pour Huma-Num suite à une demande du projet Chine COREF. Cela a conduit à expérimenter l’outil Archive-It, révélant deux enjeux : la capacité d’Huma-Num à offrir ce service à grande échelle et la différence entre les besoins patrimoniaux, qui visent à préserver l’intégralité du site, et les besoins scientifiques, qui privilégient la réutilisation des données. Huma-Num se concentre donc sur la constitution de corpus exploitables plutôt que sur la conservation du site en tant que tel.
Cette expérience a conduit à une réflexion plus large sur la fabrication des sites web scientifiques. La question se pose de savoir à qui ils s’adressent réellement : aux humains, aux moteurs de recherche, ou aux robots d’intelligence artificielle, dont la part dans le trafic web ne cesse d’augmenter. Face à cette évolution, plusieurs projets expérimentent un retour au web statique, plus simple à maintenir, archiver et déployer. Le HN Lab développe notamment l’éditeur Stylo qui produit des pages HTML légères sans base de données ni feuilles de style complexes.
Depuis le début des années 2000, les CMS comme WordPress ou Drupal ont rendu les sites plus lourds et difficiles à maintenir, ce qui menace leur pérennité. Huma-Num héberge aujourd’hui plus de mille sites qui risquent de disparaître faute de maintenance. Stéphane Pouyllau invite donc les équipes de recherche à réfléchir aux choix technologiques et éditoriaux qu’elles font, en se demandant quelle trace elles souhaitent laisser, comment assurer la durabilité de leurs sites et quelle autonomie d’utilisation elles veulent préserver.
Lieu : Salle de cours n°8 – MMSH et en visioconférence
Lien de connexion sur inscription
Pour s’inscrire :
https://evento.renater.fr/survey/inscription-seance-3…-dsgso2d0
[Seminar] Reflections and Experiments on Web Archiving from the Huma-Num Lab
Wednesday, December 3, 2:00–4:00 PM
Session 3 of the WebLab – Humathèque Condorcet seminar The Web and Web Archives for Research in the Social Sciences and Humanities: Knowledge, Methods, and Tools for Collecting, Analyzing, and Preserving Online Corpora
This session will feature a presentation by Stéphane Pouyllau, co-founder of Huma-Num, ISIDORE, and NAKALA, and head of the Huma-Num Lab (HN Lab), a research, innovation, and outreach unit of the Huma-Num infrastructure. Drawing on the experience of the HN Lab, he will discuss current directions, ongoing experiments, and the technical and collaborative challenges related to collecting, archiving, and enhancing web data for social sciences and humanities research.
We will also welcome Shiwei Li (AMU, IRASIA), a member of the scientific advisory board of the COREF project.
Static Web for Facilitating Archiving: Reflections and Experiments within the Huma-Num Lab
Stéphane Pouyllau (HN Lab, Huma-Num), online presentation
This talk will draw on the experience of the HN Lab. Stéphane Pouyllau will present current directions, ongoing experiments, and the technical issues related to “low-tech” web publishing (based on the static web), with the aim of facilitating both archiving and discoverability.
Report of the intervention:
Stéphane Pouyllau built websites for several years to disseminate research, but he now questions the relevance of this approach. With Huma-Num, the infrastructure he co-founded, the main goal is to stabilize and preserve research data rather than the websites themselves, which are considered mere publishing platforms. Preservation focuses on the data, notably through Nakala, the long-term storage service at CINES, and the National Archives.
The issue of archiving websites became important for Huma-Num following a request from the China COREF project. This led to experimenting with the Archive-It tool, revealing two challenges: Huma-Num’s capacity to offer this service on a large scale and the difference between heritage needs, which aim to preserve entire sites, and scientific needs, which prioritize data reuse. Therefore, Huma-Num focuses on creating usable corpora rather than conserving the site as such.
This experience led to a broader reflection on the creation of scientific websites. The question arises as to who these sites are really for: humans, search engines, or artificial intelligence robots, whose share of web traffic continues to grow. In response to this evolution, several projects are experimenting with a return to the static web, which is simpler to maintain, archive, and deploy. The HN Lab notably develops the Stylo editor, which produces lightweight HTML pages without databases or complex style sheets.
Since the early 2000s, content management systems like WordPress or Drupal have made websites heavier and harder to maintain, threatening their longevity. Huma-Num currently hosts over a thousand sites at risk of disappearing due to lack of maintenance. Stéphane Pouyllau therefore encourages research teams to reflect on the technological and editorial choices they make, asking themselves what kind of legacy they want to leave, how to ensure the durability of their sites, and what level of user autonomy they want to preserve.
1 commentaire