Archivage internet

NUMÉRIQUE SCIENCES ET TECHNIQUES + DE 2 ANS

Publiée par :

Le 01/03/2021 à 18h50 455 vues

Question d'origine :

Bonjour, Je sais que depuis une vingtaine d'années on réfléchit et on commence l'archivage d'Internet, notamment les sites mais a-t-on commencé ou est-il en projet d'archiver des mèmes internet ou bien des tweets ? Ils seront des témoignages capitaux de notre société d'aujourd'hui ! Merci d'avance !

Réponse du Guichet

gds_ctp - Département : Equipe du Guichet du Savoir

Le 02/03/2021 à 15h41

Bonjour,

Comme vous le dites vous-même, le web est considéré comme un enjeu majeur par les archivistes depuis plus d'une vingtaine d'années : dès 1996, le projet non lucratif Internet archive, initié par Brewster Kahle, a commencé à collecter internet.

Cependant, le développement du web depuis l'apparition des réseaux sociaux pose de plus en plus de problèmes techniques. Si la Bibliothèque du Congrès américain a effectué entre 2010 et 2017 un archivage systématique de tous les messages envoyés via Twitter, elle a dû revoir ensuite ses ambitions à la baisse, comme le raconte un article de Libération :

"«A partir du 1er janvier, indique sa directrice de la communication Gayle Osterberg, la bibliothèque conservera les tweets sur la base d'une sélection similaire à celle que nous pratiquons pour les sites internet.» Et d'ajouter que «la bibliothèque examine régulièrement ses méthodes d'archivage pour tenir compte des évolutions liées à l'environnement, à la diversité de ses archives et de leurs sujets, des considérations de coûts et d'autres éléments». On ne saura donc pas si cette décision résulte de la prise de conscience de l'insignifiance, au regard de l'humanité, de centaines de millions de tweets quotidiens, du coût de cette promesse ou des deux à la fois. Mais le fait est qu'il n'est plus certain que la photo d'Emmanuel Macron dévalant les pistes de la station pyrénéenne de La Mongie, tweetée et retweetée à foison ce 28 décembre au matin, sera archivée pour l'éternité si le Président récidive dans ses exercices de sport alpin l'an prochain.

La bibliothèque précise d’ailleurs que, parmi les raisons invoquées à la fin d’un stockage indifférencié, figurent bien l’explosion du nombre de tweets ces dernières années et le manque de capacités pour les conserver tous, surtout lorsqu’il s’agit d’images et de vidéos, bien plus gourmandes en bits que les 140 puis 280 caractères autorisés."

Cependant, la Bibliothèque du Congrès continue de collecter "gifs, tweets, blogs, mèmes et images drôles en tout genre devenues virales" afin de les rendre accessibles pour les chercheurs d'aujourd'hui et de demain. Selon un article de Slate qui citait à ce sujet un reportage du New York times, ce travail, commencé il y a une vingtaine d'années, avait à l'origine pour objectif de suivre les grands moments de l'histoire américaine. Les premier chantiers de collecte se concentrèrent d'ailleurs sur la campagne présidentielle américaine de 2000, puis sur les attentats du 11 septembre 2001. Depuis 2009, cependant, c'est rien de moins qu'un "catalogue de la culture en ligne représentative de notre époque " que les archivistes de la Library of Congress entendent mettre sur pied. Ce qui explique que le site soit pour l'instant assez peu mis en valeur :

"La sélection est ardue et le flux permanent de contenus web viraux rend le tri difficile. Pour avoir l'honneur d'intégrer la base de données de cette bibliothèque, le post doit tout de même se plier à quelques règles, détaillées par Slate.com. Tout d'abord, il doit être viral et se propager pendant une période allant d'une journée, comme sur Twitter, à plusieurs années, voire plusieurs générations. Deuxièmement, il doit être adaptable. Chacun·e doit pouvoir se l'approprier, le bricoler et le mettre à sa sauce, à l'image du «Disloyal man», l'image détournée des milliers de fois où l'on voit un homme tenant sa copine par la main se retourner pour regarder une autre fille.

Aujourd'hui, le site est accessible à tout le monde, mais autant vous prévenir, c'est un vrai bazar. Face à l'océan de mèmes et contenus viraux, l'équipe s'attache davantage à les répertorier qu'à les rendre faciles d'accès, explique au New York Times Abbie Grotke, qui dirige l'équipe d'archivistes. «Nous n'avons pas le temps de nous arrêter et de le rendre [le site web] plus convivial. Nous essayons juste de tout collecter.»"

En avril 2020, l'équipe aurait collecté pas moins de "2,129 pétaoctets de données, soit 18 milliards de documents numériques" !

En France, l'archivage du web a été testé dès 1999 par la Bibliothèque nationale de France. Il s'agit d'une extension au web du principe du dépôt légal :

"L’archivage du web s’inscrit depuis 2006 dans le cadre de la mission de dépôt légal de la BnF. Il porte sur le domaine français, c’est-à-dire les sites enregistrés en .fr, sous une extension liée au territoire national (.re, ou .bzh par exemple), ou sous extension générique (.com ou .org par exemple) à la condition qu’ils soient produits en France ou que leur auteur y soit domicilié."

Les missions spécifiques de la BnF s'organisent selon trois temporalité : "les collectes dites « courantes »" qui 'portent sur des sites de référence, dans la continuité des autres types de collections de la BnF", les "collectes projets", qui, "en coopération, documentent quant à elles les thématiques transverses, ou les événements majeurs, à l’instar des élections", et enfin les "collectes d’urgence qui concernent des événements inattendus ayant un fort impact sur la société et qui sont relayés de façon spontanée dans les réseaux sociaux."

Mais la BnF ne travaille pas toute seule sur l'archivage web. L'un de ses principaux partenaires, l'Institut national d'audiovisuel, effectue une veille sur Twitter depuis 2015 :

" Depuis l’année dernière, l’Ina s’est concentré sur la collecte de tweets, pour lesquels une interface spécifique a été développée. La BnF capte aussi plusieurs milliers de comptes Facebook et Twitter, mais seuls quelques comptes institutionnels font l’objet d’une collecte régulière. En revanche, les événements d’actualité, comme les primaires des Républicains, font l’objet d’un suivi accru. Ces données sont très importantes pour les chercheurs en sciences sociales, d’autant que, comme le mentionne Gérôme Truc « dans le monde entier, pour les travaux sur Twitter, vous avez des entreprises privées qui font du commerce de données ». Le recours à de telles entreprises est d’une part un frein pour la recherche, car cela demande des moyens supplémentaires, et d’autre part ne garantit pas la qualité de la collecte. Un des défis à relever reste l’accessibilité au fonds d’archives, puisqu’aujourd’hui, seules quatorze bibliothèques en France permettent un accès pour les chercheurs accrédités."

Pour aller plus loin :

- "Les tweets archivés : une manne pour la recherche" par Claude Mussou, sur inatheque.hypotheses.org
- "Archiver le Web : comment est conservée la mémoire du web ? " sur France culture
- "Archivage du web : près de 800 To déjà collectés par la BnF" sur Archimag
- " Qu’est-ce qu’une archive du web ?" ouvrage collectif Francesca Musiani, Camille Paloque-Bergès, Valérie Schafer, et al. consultable sur OpenEdition
- "Know your meme", base de données de mèmes d'Internet archive

Bonne journée.