6. Problèmes posés par la migration des archives : une étude de cas à la New York Public Library
14 juillet 2005 14h15–15h45
Challenges in archives migration
Présenté par IAML Archive and Music Documentation Centres Branch
Présidente: Judy Tsou (University of Washington, Seattle)
Compte-rendu du texte de Bob Kosovsky (New York Public Library) lu par John Shepard
En 1995, les bibliothèques de recherche de la New York Public Library ont réalisé un inventaire des bases de données utilisées dans l’ensemble de ses 18 départements. Les résultats furent surprenants : il y avait plus de 250 bases de données différentes en service, de tous types : fichiers papier, documents textuels, programmes logiciels sophistiqués. Il s’agissait en majorité de bases de données bibliographiques. Aucune n’était disponible sur l’Internet, et l’accablante majorité d’entre elles étaient conçues pour être utilisées seulement par des bibliothécaires, non par le public. En l’an 2000, on a essayé de mettre de l’ordre à cette situation chaotique en proposant une politique d’utilisation des base de données dans la bibliothèque mais ce fut un échec.
Quelle est l’origine de cette situation, et comment en sortir ?
C’est une base de données utilisée à la Section musique qui servira d’exemple pour tenter de répondre à cette question.
Au début des années 80, les quatre départements de recherche de la New York Public Library for the Performing Arts avaient démarré un projet ambitieux d’acquisition de collections d’archives. Ces départements – représentant les domaines de la musique, du théâtre, de la danse, et des enregistrements sonores – ont tous reconnu que les documents uniques découverts dans les collections d’archives satisfaisaient une nouvelle vague d’intérêt de la part des chercheurs désireux d’étudier des sources d’information primaires. Mais à la fin des années 80, nombre de ces collections n’avaient pu être traitées, par manque de personnel qualifié.
Le problème était le suivant : comment continuer à collecter les collections d’archives, et trouver une manière plus efficace de les traiter ?
Un membre du personnel – Gary Gisondi – ancien bibliothécaire reconverti dans les nouvelles technologies, proposa d’utiliser une base de données pour améliorer le contrôle bibliographique de nos fonds d’archives. Après quelques recherches, il vit qu’un seul logiciel pourrait répondre à nos besoins à cette époque (vers 1988), notamment en termes de nombre d’enregistrements et de taille d’enregistrement : Advanced Revelation, dit « ARev » (1).
Après l’achat d’Advanced Revelation, un membre du personnel de Rodgers & Hammerstein Archives of Recorded Sound – David H. Thomas – a commencé à développer la base de données, avant d’être ensuite engagé comme archiviste à temps plein. Il a créé deux bases de données complexes, similaires mais distinctes, l’une pour les Archives sonores, l’autre pour les collections d’archives de la Collection théâtre Billy Rose. Comme il n’existait pas de réseau à ce moment, ces deux départements ont créé deux bases de données séparées, sans envisager la possibilité que les ordinateurs puissent un jour être reliés.
Au début, seules quelques personnes étaient capables d’utiliser ces bases de données, du fait de la difficulté d’entrer des données. Puis une poignée de personnes ont été formées, mais l’utilisation des bases restait difficile. Quand quelque chose fonctionnait mal, ou nécessitait une amélioration, seul l’archiviste qui avait développé la base ARev pouvait résoudre le problème.
Jean Bowen – qui dirigeait alors la Section musique – a souhaité exploiter la puissance de la base de données. Mais elle se méfiait des complexités utilisées par le développeur. Elle a donc consulté Gary Gisondi et lui a demandé de créer une base de données très simple, afin que même le personnel non professionnel puisse saisir des données. En peu de temps, la Section musique a eu son propre ensemble de bases de données, y compris une base conçue pour le contrôle des archives.
Pour résumer la situation en 1991, la Collection théâtre, les Archives sonores, et la Section musique utilisaient trois implémentations différentes d’ARev, qui n’étaient pas totalement compatibles entre elles. L’archiviste qui avait effectué le développement assurait la maintenance d’ARev pour la Collection théâtre et les Archives sonores, mais refusait de travailler sur la base de données de la Section musique qu’il n’avait pas développée. La Section musique faisait donc appel à M. Gisondi en cas de besoin.
En apparence, cette situation fonctionnait bien. Pendant dix ans – de 1991 à 2001 – la Section musique a enrichi sa base de données d’archives de plus de 56.000 notices, représentant bien plus d’une centaine de collections. Grâce à la base de données, le traitement des collections était plus rapide. Mais le travail a aussi été accéléré avec l’assouplissement des normes de description bibliographique, qui a permis presque à n’importe qui de pouvoir saisir des données. Des étudiants en musique diplômés de la Juilliard School ont pu être engagés et formés en quelques heures à la saisie de données. Il n’y avait généralement pas de contrôle qualité.
C’est seulement au bout de quelques années que des variations dans la qualité de la description d’une collection à l’autre sont apparues. Cependant, tant que cette base de données a été destinée seulement au personnel, celui-ci s’est accommodé de cette situation.
Mais en 2000, de sérieux problèmes sont apparus. L’archiviste qui avait développé sous Arev les bases de données des Archives sonores et de la Collection théâtre avait quitté la bibliothèque en 1995. Il avait été engagé ensuite temporairement pendant deux étés, mais il fallait envisager une autre solution. De plus, M. Gisondi – l’expert technique qui avait développé la version d’ARev pour la Section musique – a pris sa retraite. Il a donc fallu convaincre, non sans difficulté, l’équipe informatique d’apporter son aide pour ARev. Celle-ci a alors exigé la signature d’un contrat de maintenance avec l’éditeur du logiciel, qui coûte à la bibliothèque environ $1.000 par an et qui devra être prolongé jusqu’à la migration des données.
L’administration de la NYPL, mise au courant de ces problèmes de bases de données, a ajouté une condition supplémentaire : l’information dans la base de données devrait être accessible au public, facilement et sans l’intermédiaire d’un bibliothécaire. En raison de la complexité d’ARev, la seule manière de mettre en place un accès public aisé serait de migrer la base de données.
C’est la situation dans laquelle se trouve à présent la Section musique. En résumé, comme dans beaucoup de bibliothèques, des bases de données ont été créées pour améliorer le contrôle bibliographique. Mais certaines questions auraient dû être posées avant, parmi lesquelles : qui va paramétrer la base ? Qui fera la saisie ? Ces personnes resteront-elles dans l’équipe, ou partiront-elles ensuite vers d’autres postes ? Si elles partent, qui sera alors responsable de la programmation et de la saisie ? Qui assurera le support technique de la base de données – l’établissement ? Ou la hot line du fournisseur de logiciel ? Ce service peut être très cher. Et pour finir, mais peut-être le plus important : comment la base de données sera-t-elle rendue accessible au public ?
Pour revenir à notre histoire, les trois départements qui utilisent ARev à la New York Public Library sont tous d’accord pour la migration des données, qui n’est pas perçue comme un problème en soi. Ce qui les préoccupe davantage, c’est la forme future des données. Ceci les a incités à reconsidérer les objectifs pour lesquels la base de données a été créée. La base de données de la Section musique a été utilisée comme outil pour traiter les collections d’archives. Avec l’arrivée de la description d’archives codée, ou EAD (2), il est clair que la forme finale des données devra ressembler aux instruments de recherche sur l’Internet. Les fonctions de recherche d’une base de données sont séduisantes, mais l’avenir est au logiciel qui pourra exploiter les instruments de recherche en ligne avec la vitesse et la complexité d’une base de données. Le World Wide Web convient vraiment aux descriptions de collections d’archives. Le projet actuel est de verser toutes les données dans des fichiers textes électroniques ressemblant à la structure d’un document EAD, puis de procéder au balisage et à l’étiquetage des données afin de pouvoir les mettre sur le Web. En pratique, cela s’élève à plus de 100 collections d’archives, dont certaines de plusieurs milliers d’enregistrements (il s’agit uniquement des collections déjà indexées dans la base de données ARev ; il y en a au moins autant qui ne sont pas encore informatisées).
A la Collection théâtre comme aux Archives sonores, l’équipe est peu disposée à perdre les fonctionnalités d’ARev. Cependant, un développement récent s’est produit, particulièrement prometteur. Une nouvelle directive autorise le personnel à créer des notices d’inventaire dans le principal catalogue en ligne des bibliothèques de recherche de la NYPL, CATNYP (http://catnyp.nypl.org/). Les notices d’inventaires sont l’équivalent des notices d’entrée pour les livres : ce sont des notices minimales, comportant seulement les vedettes noms et titres (bien que d’autres informations puissent être ajoutées si besoin).
Si CATNYP n’a jamais été envisagé pour abriter une description détaillée de données d’archives, étant donné la complexité des spécifications de la description bibliographique, les notices d’inventaire offrent maintenant une nouvelle liberté, grâce à l’assouplissement de ces spécifications. Il est désormais possible d’entrer les différents types de documents d’une collection d’archives dans la base de données bibliographique, et de choisir si et quand cette information doit être accessible au public. L’information peut ensuite être téléchargée dans un format de données structuré, qui aidera à préparer l’instrument de recherche pour le balisage EAD. Il reste à établir la structure des champs des notices de la base de données ARev, de sorte qu’ils puissent être chargés dans les notices de CATNYP. Une fois la sélection des notices effectuée, la migration des données pourra avoir lieu et ARev pourra être abandonné. Tel est le souhait de la New York Public Library.
Pour conclure, il est à souhaiter que cette expérience avec ARev sera utile à d’autres département de la NYPL et les dissuadera de multiplier les bases de données bibliographiques, que ce soit pour les collections d’archives ou pour d’autres fonds. Avant de créer des bases de données, il faut en prévoir les implications : quelles sont les personnes impliquées ? Qui sera responsable ? Quels en seront les coûts ? Quelles compétences seront nécessaires ? Et, le plus important, un tel chantier prendra t-il deux, cinq, ou même dix ans à partir d’aujourd’hui ?
Mais le problème posé par la diversité des types de bases de données subsiste, pas seulement à la New York Public Library, mais ailleurs, dans le monde entier. Qu’est-ce que l’avenir va apporter ? Les bibliothèques parviendront-elles à intégrer leurs bases de données autonomes aux catalogues en ligne existants ? Le personnel pourra-t-il résister à la tentation de créer de nouvelles bases de données distinctes des bases de données existantes ? Comment seront traitées les bases de données déjà existantes ?
Il existe peut-être des solutions dans certaines des idées que propose Roy Tennant, l’auteur du célèbre article « MARC doit mourir », publié dans le Library Journal en octobre 2002. D’après Tennant, les métadonnées joueront un rôle croissant dans la manière dont les gens consulteront les catalogues de bibliothèque. Au lieu de considérer le catalogue de bibliothèque comme l’objectif final, il envisage un univers de l’information où le catalogue est seulement une partie d’une structure plus grande et « fédérée », une sorte d’épine dorsale à laquelle seraient attachés d’autres bases de données (bibliothèques numériques, instruments de recherche, et autres types de contenu web). Cette unification de l’information apportera une valeur ajoutée aux catalogues de bibliothèque existants, car les utilisateurs auront accès à plus d’information.
Si on s’appuie sur l’analyse de Tennant, la possibilité de lier à une nouvelle infrastructure les bases de données dont nous aurons hérité situerait nos anciennes données dans de nouveaux contextes, leur conférant une plus grande valeur.
Les établissements devraient donc commencer dès maintenant à préparer et planifier la migration certaine de leurs bases de données autonomes. Etant donné l’environnement favorable et les nouvelles perspectives qui s’ouvrent, leurs anciennes données seront peut-être bien plus utiles qu’elles ne le sont maintenant, car elles connaîtront une nouvelle vie dans de nouveaux contextes de l’information.
Isabelle Gauchet Doris,
Responsable de la documentation au Centre de documentation de la musique contemporaine
- Pour une discussion détaillée à propos d’Advanced Revelation et de son adaptabilité à l’indexation de grandes collections d’enregistrements sonores non-commerciaux, voir le Rapport technique n° 21 de la Music Library Association – intitulé Archival Information Processing for Sound Recordings, par David H. Thomas.
- Encoded Archival Description