Le jeudi 19 mars nous aurons le plaisir d’accueillir Valérie Schafer et Benjamin Ooghe-Tabanou pour notre séance de séminaire, de 14h à 17h.
Valérie Schafer est professeure en histoire contemporaine à l’université du Luxembourg et directrice adjointe du C2DH (Center for contemporary and digital history). Elle est également chercheuse associée au Centre Internet et Société (CIS-CNRS). Ses domaines d’expertise sont l’histoire de l’informatique et des cultures numériques et elle est co-éditrice de la revue Internet Histories.
Sa présentation intitulée « The Web Is (not) Dead, Long Live the Internet … Archives » détourne celui de l’article très discuté, The Web Is Dead, Long Live the Internet (C. Anderson et M. Wolff, Wired, 2010). C’est un point de départ pour aborder les défis à la fois de l’archivage du Web et des usages scientifiques de ces archives sous l’angle de l’accès, des infrastructures, des pratiques, de la représentativité, du basculement d’un web ouvert vers des environnements fermés. En articulant retour d’expérience et perspectives, la présentation reviendra sur des enjeux et étapes ayant structuré l’archivage du web et ses usages scientifiques sur trois décennies avant d’ouvrir sur les défis actuels et futurs (plateformisation, fragmentation des environnements numériques, fermeture des API ou encore essor des contenus générés par IA). La transformation constante des formes de production et de circulation des contenus impacte la disponibilité et l’exploitabilité des traces numériques, comme les conditions de préservation, d’analyse, d’interopérabilité, de réutilisation des données.
Benjamin Ooghe-Tabanou, ingénieur généraliste, se spécialise dans l’informatique appliquée à la recherche scientifique. Après plusieurs expériences en astrophysique à Johns Hopkins et l’École Normale Supérieure, Benjamin investit les sciences humaines et sociales, d’abord en tant qu’activiste pour l’OpenData et la transparence parlementaire, puis au médialab de Sciences Po en tant qu’ingénieur de recherche en 2012, où il se concentre sur le webmining et le développement d’outils open source pour les sciences sociales. Il encadre l’équipe d’ingénieurs de recherche du médialab depuis 2020.
Sa présentation portera sur Hyphe, un logiciel libre développé au médialab de Sciences Po, conçu pour offrir aux chercheurs et étudiants un crawler web orienté recherche afin de constituer et d’enrichir des corpus de sites web grâce à une méthodologie de terrain qualitative. Hyphe fournit une méthode et un outil pour construire un corpus de recherche à partir de contenus web (pages web et liens HTTP) grâce à une approche innovante de curation progressive destinée à résoudre deux des principaux problèmes rencontrés en sciences sociales lors de l’exploration automatisée du web : construire un corpus thématique et délimiter la présence d’un acteur sur le web, à l’aide d’un processus itératif aidant les utilisateurs à sélectionner et définir de manière dynamique des « entités web » de manière à la fois granulaire et flexible, pour pouvoir choisir à la fois des pages individuelles, un sous-domaine, une combinaison de sites web, etc.
En partenariat avec les équipes officielles françaises d’archivage du web, Hyphe a récemment été enrichi afin de pouvoir également explorer les archives web d’archive.org ainsi que celles de la Bibliothèque nationale de France (BnF) et de l’Institut national de l’audiovisuel (INA), permettant ainsi aux utilisateurs de constituer des corpus web à partir du passé ou de compléter des corpus web provenant du web en direct avec des archives de sites web disparus.
Cette présentation sera suivie d’une démonstration avec mise en pratique.
Les intervenants seront en distanciel, la séance aura lieu en hybride : en présentiel en salle Seurat à la MMSH, en distanciel via visioconférence.
Voici le lien pour s’y inscrire : https://evento.renater.fr/survey/inscription-seance-4-weblab-19-mars-de-14h-a-17h-8erp25b2
[Seminar session 4] The Web Is Not Dead: Challenges, Methods, and Tools for the Analysis of Digital Traces
On Thursday, March 19, we will be pleased to welcome Valérie Schafer and Benjamin Ooghe-Tabanou for our seminar session.
Valérie Schafer is Professor of Contemporary History at the University of Luxembourg and Deputy Director of the C2DH (Centre for Contemporary and Digital History). She is also an associate researcher at the Centre Internet et Société (CIS–CNRS). Her research focuses on the history of computing and digital cultures, and she is co-editor of the journal Internet Histories.
Her presentation, entitled “The Web Is (not) Dead, Long Live the Internet … Archives,” plays on the much-debated article The Web Is Dead, Long Live the Internet (C. Anderson and M. Wolff, Wired, 2010). It serves as a starting point to address the challenges of web archiving and the scholarly uses of web archives, from the perspectives of access, infrastructures, practices, representativeness, and the shift from an open web to increasingly closed environments. Combining experience-based insights with forward-looking perspectives, the talk will revisit the key stages and issues that have shaped web archiving and its scholarly uses over the past three decades, before turning to current and future challenges—platformization, fragmentation of digital environments, the closure of APIs, and the rise of AI-generated content. The constant transformation of how content is produced and circulated affects the availability and usability of digital traces, as well as the conditions of preservation, analysis, interoperability, and data reuse.
Benjamin Ooghe-Tabanou is a generalist engineer specializing in computing applied to scientific research. After several experiences in astrophysics at Johns Hopkins University and the École Normale Supérieure, he moved into the social sciences and humanities—first as an activist for open data and parliamentary transparency, then at the médialab of Sciences Po as a research engineer in 2012, where he focused on web mining and the development of open-source tools for the social sciences. Since 2020, he has led the médialab’s research engineering team.
His presentation will focus on Hyphe, an open-source software developed at the Sciences Po médialab. Designed as a research-oriented web crawler, Hyphe enables researchers and students to build and enrich web corpora through a qualitative, field-based methodology. It provides both a method and a tool for constructing research corpora from web content—web pages and HTTP links—using an innovative approach based on progressive curation. This approach addresses two major challenges in the automated exploration of the web in the social sciences: building a thematic corpus and delimiting an actor’s presence on the web. Through an iterative process, users are guided in selecting and dynamically defining “web entities” in a granular and flexible way, whether individual pages, a subdomain, a combination of websites, and more.
In partnership with the official French web archiving institutions, Hyphe has recently been extended to explore web archives from archive.org as well as those of the Bibliothèque nationale de France (BnF) and the Institut national de l’audiovisuel (INA). This allows users to build web corpora from the past or to complement live-web corpora with archives of now-defunct websites.
The presentation will be followed by a practical demonstration.
The participants will be via videoconference, the session will be hybrid : in person at the MMSH, and via videoconference.
Here’s the link to register to the session : https://evento.renater.fr/survey/inscription-seance-4-weblab-19-mars-de-14h-a-17h-8erp25b2