Mdr! ToN Skybl0g eSt TouJouRs là
Depuis dix ans, la BNF et l’INA archivent minutieusement le Web français
«Kikou. Ce blog bah c’est ma vie, mes potes, mes délires. » Mauvaise nouvelle : le Skyblog honteux que vous teniez en 2007 n’a peut-être pas disparu, même si vous l’avez effacé et auriez aimé qu’il meure à jamais. Depuis vingt ans, Internet est scrupuleusement archivé. En 1996, l’Américain Brewster Kahle, un ingénieur informatique ayant fait fortune dans le référencement, a créé la fondation Internet Archive. Son ambition est de constituer la nouvelle bibliothèque d’Alexandrie, rien de moins. Les « crawlers », des programmes capables de stocker automatiquement les sites, commencent leur mission de sauvetage. La BNF lance son propre chantier d’archivage dès 2000. Au début, « les données nous arrivaient dans les Petabox [d’une capacité d’un million de giga), qu’Internet Archive nous envoyait par bateau, explique à 20 Minutes Emmanuelle Bermès, adjointe chargée des questions scientifiques et techniques à la BNF. Ça mettait des semaines… » A partir de 2006, la BNF et l’INA commencent la collecte des sites du domaine français au titre de dépôt légal.
26 milliards de fichiers
En janvier, les archives atteignaient 668 Téraoctets (To), soit 26 milliards de fichiers stockés dans les sous-sols de la BNF. Quelque part dans l’une des dizaines d’armoires massives, se cache peut-être votre Skyblog. Une fois par an, un robot vient faire son tour du Web français pendant deux à trois semaines, pour une photographie globale nommée « collecte large » qui portait, en 2015, sur 4,5 millions de noms de domaine. Mais la majeure partie de l’archivage est organisée par une centaine de chargés de collection de la BNF, qui réalisent des « collectes ciblées » sur des thèmes précis. Une collecte sur la présidentielle, par exemple, est en cours. Des chercheurs consultent les archives pour étudier l’histoire du Web , dont les fameux Skyblog, et se délecter de l’esthétique douteuse ou du vocabulaire employé. Vous vous en seriez volontiers passé ? « C’est pour cela qu’on ne peut pas rendre les archives accessibles à tous, justifie Emmanuelle Bermès. Si la personne a supprimé son Skyblog au moment de passer le barreau pour être avocat, pour ne pas qu’on sache tout de ses soirées étudiantes, on respecte son droit. » Il faut donc justifier d’un projet de recherches.