Conférence d’Amsterdam 2009 – 6/17

6. Sites de musicologie : d’une recherche en plein-texte (theatre-italien.fr) à une base de données de faits et de savoirs (rpcf.fr)

Co-fondateur des éditions françaises Symétrie, je suis éditeur de livres et de partitions, et par ma formation d’ingénieur comme par l’ouverture naturelle de mon métier vers le multimédia, je réalise aussi des sites internet et des bases de données. Je vais vous présenter rapidement l’état de notre réflexion sur ce que sera la base de données du RPCF et les principes de conception que nous suivons dans sa réalisation actuelle. La création d’un site internet de recherche dans le corpus du Théâtre-Italien de Paris, Chronologie et documentsfut la première étape dans la contribution de Symétrie aux bases de données musicologiques. Cette publication étant aussi une source d’inspiration pour le programme RPCF, je vais commencer par vous donner quelques détails sur ce site de recherche. Je poursuivrai en indiquant de quelle manière la base rpcf.fr sera différente.

Theatre-italien.fr

Le corpus réuni par Jean Mongrédien, que nous avons publié en 2008 dans le cadre du partenariat de Symétrie avec le Palazzetto Bru Zane, réunit sur 5 384 pages et huit volumes 31 ans d’informations sur les programmes (distribution, recettes, informations administratives) et d’extraits de presse ou de correspondances. Cet ensemble dresse un panorama très riche, sinon exhaustif, de la vie de cette institution musicale parisienne au moment de la naissance du romantisme. Malgré un premier volume constitué des seuls index et tables – à la suite de l’excellente introduction synthétique de Jean Mongrédien –, la recherche d’informations à l’intérieur de cet ouvrage nous a paru nécessiter l’usage de l’outil informatique. C’est ainsi que, depuis quelques jours, la recherche en plein texte est disponible à tous, sur le site theatre-italien.fr.

Nous avons respecté la structure des volumes, avec les quatre sous-titres Représentations, Échos et nouvelles, Correspondances et documents administratifs et Comptes rendus, excepté pour les Généralités sur l’année écoulée qui ont été arbitrairement rangées au 31 décembre de l’année, date à laquelle ils apparaissent d’ailleurs dans les volumes imprimés. Les recherches se font donc à l’intérieur d’un paragraphe : chaque résultat renvoie à un paragraphe, avec sa localisation précise. En effet, nos différents partenaires ayant soutenu cette publication nous ont demandé de ne pas mettre à disposition le texte complet, mais plutôt de renvoyer vers les pages de la publication papier. Le classement des recherches se fait par ordre chronologique.

Je vais vous donner un bref aperçu des fonctions de recherche et des possibilités ouvertes par cet outil.

Exemples de recherches

Les recherches sur les instruments, par exemple, ne peuvent être faites par l’index, qui ne regroupe que les noms de personnes et d’œuvres.
Cherchons « cor anglais ». Les réponses se présentent sous la forme d’extraits de texte permettant d’évaluer l’intérêt de la référence et elles sont suivies de la localisation précise des mots recherchés à l’intérieur de la collection.

un ton plus bas ; On remarque à droite de la case d’interrogation les mentions « par année » et « par volume » qui permettent préciser l’empan chronologique à celui de l’un des volumes de la collection.

Étude sur le vocabulaire : le mot vibrato n’existe pas dans le texte.

Mais vibr*, suggéré dans la réponse, nous montre 95 occurrences, du verbe « vibrer » essentiellement.

Autre exemple, celui du mot « justesse » qui aboutit à 61 résultats :

Les options booléennes sont présentes dans ce moteur de recherche : – devant un mot pour l’exclure, OR pour chercher sur deux termes, NEAR pour demander la proximité de deux termes, et même ADJ pour réclamer qu’ils soient adjacents et dans l’ordre. NEAR permet, par exemple, une recherche sur les concerts programmés le dimanche en opérant comme suit : dimanche NEAR concert ; ou sur le rôle du cor comme instrument d’accompagnement, en interrogeant : accompagnement NEAR cor. Dans ce cas, les neufs réponses renvoient à des références précises, en nombre limité, de comptes rendus ou de programmes mentionnant une œuvre avec un cor ou un cor anglais obligé.

Les recherches italiens* et italien* -bouffon* -buff* (la deuxième excluant les termes bouffon et buff… dans le même environnement aboutissent respectivement à 7498 et 5818 résultats.

Le serveur autorise l’archivage des questions posées grâce à la fonction « Archives (à gauche de l’écran) :

Limites du plein texte

En utilisant cet outil de recherche, qui j’espère fait naître chez vous des idées de sujets d’étude, vient aussi un petit regret : et si, au lieu de n’être accessibles que comme texte, les informations étaient structurées ? et validées par des chercheurs, qui mutualiseraient alors le travail nécessaire à l’identification des personnes citées, des lieux, des œuvres ?
À ce stade de notre réflexion, nous avons accepté l’édition dans la série Palazzetto Bru Zane des différents volumes du RPCF, et commencé à travailler avec l’équipe réunie par Patrick Taïeb aux moyens de publier efficacement tous ces livres. Par ailleurs, comme les différentes interventions de ce matin ont pu le montrer, la réflexion scientifique et le modus operandi du RPCF étaient déjà bien définis.

Définition des besoins

L’expérience accumulée lors de la publication du Théâtre-Italien nous a enseigné un certain nombre de points :

réunir les informations pour constituer un index des personnes et des œuvres pose de nombreuses questions scientifiques ;
les personnes les mieux placées pour résoudre certaines questions (par exemple, l’orthographe de noms propres) sont les chercheurs qui ont relevé les notices dans les archives ou dans les publications d’époque ;
le meilleur moment pour identifier les personnes citées dans une citation de presse est lorsque le chercheur est dans le cours de son étude, pas au moment de la publication ;
réutiliser les savoirs accumulés lors de l’édition d’un ouvrage (par exemple pour les index de personnes) est nécessaire pour accélérer et améliorer la qualité des ouvrages suivants ;
il n’y a pour l’instant pas de référence sûre et large pour les noms de personnes ou d’œuvres du début du xixe siècle (en raison surtout de la présence de nombreux interprètes).

Cependant, le travail en équipe commencé par le RPCF implique d’autres contraintes :

intervenir à plusieurs personnes sur des documents entraîne toujours des risques d’erreur, et réduit la confiance dans la fiabilité des documents lorsque l’historique des actions n’est plus accessible ;
travailler à plusieurs sur des documents de différentes natures, conservés de manière variable et en nombre nécessite l’établissement de conventions et de normes assez strictes pour permettre le partage des informations.

Contours de la solution envisagée

Nous avons imaginé de proposer une base de données collaborative, accessible sous la forme d’un site internet, qui permette aux chercheurs du RPCF de préparer leurs publications de données récoltées en résolvant pratiquement tous les points soulevés.
Les principes retenus sont :

la constitution de listes d’autorités pour les personnes, les lieux et les œuvres, renseignées au moment de l’import des textes ;
l’accès nominatif à la base, ce qui permet de tracer toutes les actions faites et donc, de remonter à l’auteur d’une modification d’information ;
la justification de chaque modification : les changements de dates ou d’orthographe de noms propres seront motivées par un message nominatif. Le but est de pouvoir comprendre pour quelle raison une entrée de la liste d’autorité a été modifiée, quand et par qui ;
la mise au point des outils informatiques nécessaires pour représenter avec exactitude les données imprécises que nous avons, par exemples les dates ;
la mise en relation des informations, qui constitue en elle-même un savoir.

Quels sont les bénéfices attendus ?

Subsidiarité : Ces quelques principes permettent de confier l’entrée des textes aux chercheurs eux-mêmes, qui valideront l’enrichissement des textes (l’indexation) d’après les listes d’autorités, et au besoin créeront de nouvelles entrées. Les personnes les plus compétentes sont donc celles qui seront en charge des choix scientifiques.

Mutualisation : Les données créées par les premières équipes pourront bénéficier aux suivantes : c’est la mutualisation des moyens.

Ubiquité : L’utilisation du concept client-serveur permet le travail simultané dans une équipe sur le même corpus, plus facilement qu’avec une circulation de fichiers textes.

Vitesse : Les textes enrichis peuvent être beaucoup plus vite publiés avec des index, l’enrichissement étant fait dans la base par les chercheurs.

Fiabilité : La sécurité des données est améliorée par l’utilisation des automatismes de la base pour réduire les manipulations directes dans le texte ; par le même moyen on contraint aussi chacun à utiliser les normes de présentation communes.

Historique : Les interventions de chacun sont archivées, permettant la constitution d’un historique.

Unicité : La saisie sous forme d’une base de données permet de ne pas dupliquer les informations et de les présenter sous plusieurs formes suivant l’intérêt de l’utilisateur?: ainsi, les événements que constituent l’interprétation d’une pièce – décrite par une zone uniforme avec une date, une pièce, un interprète – peuvent être regroupés par personne pour constituer une sorte de curriculum de la personne. Il peut être fait de même avec les relations familiales ou d’apprentissage entre les personnes, comme ‘fils de’, ‘élève de’, qui représentent un réseau relationnel, et qui doivent être établies et modifiées au fur et à mesure des avancées des programmes de recherche.

Étapes de la réalisation

Nous travaillons, avec Étienne Jardin comme correspondant scientifique, un informaticien et moi-même comme concepteur, à établir toutes les briques de base de cet outil collaboratif. Nous espérons d’ici le mois de septembre, être en mesure de commencer à traiter les premiers textes des volumes parisiens. Une fois que les premiers plâtres seront essuyés, les chercheurs de l’équipe se verront formés à l’usage de cet outil. En fonctionnement permanent, il nécessitera bien sûr la présence d’un modérateur scientifique qui surveillera les nouvelles entrées, l’application des normes communes et validera les nouvelles contributions acceptées par le conseil scientifique du RPCF. Il n’est à ce jour pas prévu de délai pour une ouverture à la consultation publique, même s’il est clair pour nous que la constitution d’un tel savoir rendra indispensable sa mise à disposition publique à moyen terme.

Faits et savoirs

Les aspects de la base que nous venons de décrire en font une base de faits et de savoirs, beaucoup plus structurée qu’une simple recherche en plein texte dans les pages d’un livre. Les faits sont les événements musicaux issus des programmes de concert auxquels s’ajoutent quelques informations supplémentaires sur les dates de naissance ou de mort des personnes, par exemple, glanées dans les zones citations. Les savoirs sont représentés par les liens entre les données et les messages de modification enregistrés par chaque contributeur. Les publications sous forme de livres issues de cette base seront des instantanés de cette connaissance, qui continuera à évoluer après l’impression.

Les faits sont surtout représentés par des données analysées par les chercheurs : ce sont les zones uniformes et les listes d’autorités. Les savoirs sont, en bonne partie, représentés par les liens entre les faits et les noms, qui enserrent la réalité sous un filet aux mailles plus serrées que la présentation linéaire. Ces liens donnent lieu à une navigation hypertextuelle, avec plus de relief (multifacette) que ce que la présentation papier (plane) peut faire. Cela dévoile une multiplicité de points de vue qui pourront être portés par les chercheurs sur les documents ainsi structurés.

Enfin, j’attire votre attention sur le fait que, en plus de la multidimensionnalité, la dimension temporelle de la construction du savoir est aussi fidèlement engrangée dans le modèle retenu, principalement par l’introduction de l’historicité des interventions.

Symétrie est fière de contribuer ainsi à la construction d’un corpus scientifique solide en musicologie et des outils nécessaires pour le constituer et l’exploiter. Nous estimons que c’est pleinement le rôle d’un éditeur que de jouer le rôle d’intermédiaire dans la circulation des connaissances et de facilitateur de la transmission du savoir. Nous sommes reconnaissants au partenaire qui nous soutient dans cette réalisation.

Jean-Christophe Michel,
Directeur des éditions Symétrie, Lyon

AIBM Groupe français

Documentation professionnelle

Amsterdam 2009

Conférence d’Amsterdam du 5 au 10 juillet 2009

Association internationale des bibliothèques archives et centres de documentation musicaux