DOLCE – BLOGUE DU CMCQC

DONNÉES OUVERTES LIÉES DU CENTRE DE MUSIQUE CANADIENNE AU QUÉBEC

Cette section présente DOLCe, le blogue du CMCQc, qui vise à partager notre expérience du Web sémantique et des données ouvertes et liées. Nous cherchons à la fois à informer d’autres organismes qui se retrouvent à développer un projet similaire, mais aussi à renseigner la communauté du Centre de musique Canadienne (CMC) sur cette aventure lancée il y a un an.

MUSIQUE DE CRÉATION ET WEB DE DONNÉES

Données Ouvertes Liées du Centre de musique canadienne au Québec

Ce billet de blogue est le premier d’une série consacrée à partager notre expérience du Web sémantique et des données ouvertes et liées. Nous cherchons à la fois à informer d’autres organismes qui se retrouvent à développer un projet similaire, mais aussi à renseigner la communauté du Centre de musique Canadienne (CMC) sur cette aventure lancée il y a un an.

Le projet DOLCe

Grâce à une subvention reçue du Conseil des arts du Canada (Fonds stratégie numérique), nous avons entamé en octobre 2019 une année d’exploration du Web sémantique et des données ouvertes et liées, afin d’exploiter les données du CMCQc.

Voici les objectifs initiaux :

  • améliorer les connaissances numériques de l’équipe ;
  • choisir des données qui pourraient intéresser la communauté et qui pourraient s’arrimer aux données d’autres organismes ;
  • effectuer un nettoyage de ces données ;
  • choisir un modèle pour le déploiement technologique dans le Web sémantique ;
  • structurer les données dans un langage balisé conforme à des normes et à des standards internationaux afin de les rendre ouvertes, accessibles, découvrables et interopérables ;
  • préparer et rédiger un rapport en vue d’une publication en ligne sous licence ouverte.

Le but était de créer et de renforcer les liens entre les données que nous avons sur les compositeurs.trices et celles existant en ligne ou chez d’autres organismes, afin de faciliter l’accès à la musique des compositeurs.trices du CMCQc. Cette phase exploratoire nous a permis d’étudier et de considérer les différentes solutions, certaines étant plus appropriées au CMCQc, à son contexte et à ses données. Nous en discuterons davantage dans le prochain billet, qui portera sur notre méthodologie de travail.

Équipe

Composée de trois personnes, dont deux issues des sciences de l’information : Léa Duflos, particulièrement spécialisée dans le domaine des données ouvertes et expérimentée en programmation, et Anne-Marie Sylvestre, archiviste formée en musique, travaillant également sur ce projet. Louis-Noël Fontaine s’occupe quant à lui de la gestion de la base de données FileMaker et fournit les exports nécessaires à la manipulation des données.

Dans les prochains billets, nous traiterons plus concrètement de notre méthodologie de travail, des données du CMCQc, des problèmes encourus et des solutions trouvées, des projets inspirants que nous avons suivis et de l’aventure Wiki que nous entreprenons.

Qu’est-ce que le CMC ?

Il s’agit d’un organisme fondé en 1959, né du désir de promouvoir la musique des compositeurs.trices canadiens.nes et de centraliser leurs partitions ainsi que la documentation portant sur leur parcours et leur musique. Le bureau du Québec (CMCQc) est l’un des cinq bureaux régionaux, actif depuis 1973. Il est doté d’une musicothèque, d’un atelier de reprographie, d’un centre de documentation et d’une voûte d’archives comportant des milliers manuscrits de partitions. Sa base de données relie tous ces services en répertoriant des données sur les compositeurs agréés au CMCQc, sur la documentation s’y rapportant et bien sûr, sur leurs oeuvres musicales.

BILLET 2: MÉTHODOLOGIE DE TRAVAIL

MUSIQUE DE CRÉATION ET WEB DE DONNÉES

Mise en place d’un chantier d’ouverture des données au CMCQc

Ce deuxième billet a pour objectif d’illustrer la méthodologie de travail que nous avons utilisée et comment elle a été implantée au sein de notre pratique. À notre arrivée, nous avons pris connaissance des objectifs du projet : faire découvrir la musique de création des compositeurs.trices du CMCQc en s’engageant dans une initiative d’ouverture de données et de partage de connaissances et d’expertises.

Comme beaucoup de projets numériques, notre démarche de travail s’est organisée en deux temps :

  • comprendre le fonctionnement des CMC : leurs pratiques, leurs données, leurs écosystèmes
  • s’approprier les concepts du Web sémantique et les sujets connexes

Cela nous a permis, d’une part, de prendre connaissance et de maîtriser nos données et d’autre part, de nous documenter afin de choisir le modèle et l’infrastructure technologique pouvant nous permettre l’ouverture de ces données. Dans les deux cas, il s’agit d’un long processus d’assimilation de l’information.

Voici les principales activités pour la mise en place d’une pratique de travail :

  • Outils collaboratifs :
    • création d’un espace en ligne (Google Drive) et d’une bibliographie partagée (Zotero) ; mise en place d’une veille technologique (logiciels de veille, réseaux sociaux, infolettres, etc.)
  • Échéancier :
    • élaboration hebdomadaire des objectifs avec un contrôle et un réalignement en fonction des changements
  • Autoformation :
    • consultation d’un grand nombre de documents (articles, vidéos, livres, MOOCs, webinaires, etc.) sur les sujets suivants : Web sémantique, données ouvertes et liées, modèles de données, ontologies et taxonomies ; licences et droits d’auteur ; bases de données relationnelles et graphes de connaissances ; outils de visualisation, projets d’humanités numériques ; Wikidata et autres projets Wiki, etc.
    • apprentissages sur les CMC : à l’aide de documents sur place, des sites internet, mais aussi grâce à des échanges avec les compositeurs et employés du CMC National et du CMC Québec
  • Rencontres de professionnels :
    • discussions/formations avec des consultants ; participation à des formations et des séances d’informations en ligne
  • Rédaction hebdomadaire du travail accompli :
    • courts rapports qui ont permis au conseil d’administration et à la direction de suivre nos activités tout en servant de base en vue de la rédaction d’une documentation de qualité

Traitement, analyse et visualisation des données

Après l’étude approfondie du CMCQc et de son fonctionnement, nous sommes entrés dans le vif du sujet en nous familiarisant avec les données. Ce travail de traitement et d’analyse avait un double objectif : étudier le flux de travail pour la saisie des données au CMCQc mais aussi identifier les différents types de données présents dans la base de données interne FileMaker.

Fig. 1 – Processus de travail sur les données au CMCQc – Cliquer pour agrandir l’image

 

 

  • Le flux de travail pour la saisie des données au CMCQc
    • Réflexions sur la structure actuelle de la base FileMaker et sur son potentiel, mais aussi sur d’autres systèmes de gestion des données à des fins de comparaison et de projections
    • Rédaction d’un guide de règles de saisie : une mise à jour de ce qui avait été fait en mettant l’accent sur l’importance des métadonnées, en vue d’améliorer la qualité des données
    • La collecte de données
    • Réalisation d’un inventaire de données à l’aide d’un tableau répertoriant l’intégralité des champs présents dans la base FileMaker (nom de la table, nom du champ, description du champ, type de données, commentaires ou observations et pertinence pour notre projet)
    • Tests d’exportation des données : développement en interne d’un outil de recherche pour être en mesure d’exporter les données nécessaires au projet en trois fichiers au format CSV (compositeurs, oeuvres et formations)

À noter, les sections suivantes feront l’objet de futurs billets de blogue afin de communiquer et de partager notre expérience de travail plus en détail : échantillonnage, modélisation et visualisation des données.

  • Structurer et analyser les données
    • Élaboration d’un modèle de données en fonction des besoins de l’institution en vue d’une ouverture dans le Web de données
    • Nettoyage des données exportées à l’aide du logiciel Dataiku : constitution d’un échantillon de données comprenant 84 compositeurs avec, comme informations requises : nom, prénom, genre, date naissance/mort, lieu d’études, ISNI, etc. Cette étape nous a aussi permis de quantifier le pourcentage de données saisies par champ pour ensuite mettre en place une stratégie d’enrichissement des données
    • Enrichissement des données : tout d’abord, à l’aide d’un travail dans le service de requête SPARQL de Wikidata, nous avons récupéré les compositeurs québécois agréés au CMCQc afin de procéder à une réconciliation des données (alignement des données avec Wikidata). Ensuite, nous avons entrepris des recherches pour compléter les données manquantes à partir de diverses sources (encyclopédies en ligne et sites Web sur la musique de création) afin d’obtenir un échantillon de qualité.
  • Visualisation des données

Expérimentations avec deux outils de visualisation de données :

    • Palladio : utilisation de diverses visualisations (carte, ligne du temps, graphe, etc.) pour donner un aperçu du travail qui peut être fait avec les données du CMCQc (les naissances et morts par genre, la répartition des compositeurs en fonction de leur lieu de naissance et/ou lieux d’études, etc.)
    • Gephi : proposition de visualisations des liens entre les compositeurs, plus particulièrement les liens professeurs/élèves

Réaliser un projet à sa portée

En définitive, nos objectifs de base sont restés essentiellement les mêmes, c’est à dire : approfondir les connaissances numériques de l’équipe du CMCQc et améliorer la visibilité de la musique des compositeurs.trices québécois.es. Toutefois, avec les changements imposés par le confinement et à la lumière de nos essais/erreurs, de nos apprentissages et de nos constats, nous avons pris des décisions quant à la finalité du projet. Voici nos principales réflexions :

  • Collaborer : l’une de nos forces a été d’être une petite équipe favorisant ainsi la communication et la flexibilité. De plus, ayant chacun nos propres domaines d’expertise (développement informatique, musique et modélisation/analyse des données), nous avons été à même de mettre en place une méthodologie de travail et de réagir rapidement pour réviser nos objectifs
  • Planifier des activités d’échanges et de partage d’expériences avec nos partenaires : normalement prévues à mi-parcours de cette année exploratoire, ces activités n’ont pu avoir lieu comme prévu, puisque nous étions rendus en confinement
  • Travailler en contexte de confinement : comme beaucoup d’institutions, notre travail a été affecté par la pandémie et nous avons dû faire preuve d’originalité pour continuer. N’ayant pas accès à distance à la base FileMaker, nous avons pris le parti de créer un échantillon en croisant les données issues de Wikidata et celles du système intégré de gestion de bibliothèques Sydney (SIGB) du CMC National. S’en est suivi une phase d’expérimentations qui nous a aidés à prendre conscience du véritable potentiel d’interconnexions des données du CMCQc. Le résultat est double :
    • État des lieux des fiches compositeurs québécois agréés au CMCQc présents dans Wikidata
    • Expérimentations en visualisation de données : autoformation sur les outils utilisés ; cela nous a permis de faire ressortir les liens « abstraits » entre nos concepts et de leur donner un sens : une proposition imagée fait parfois une meilleure démonstration qu’un document textuel.
  • Prendre le virage technologique : à travers nos recherches et au vu de nos résultats d’expérimentation, nous avons pris la décision d’utiliser Wikidata comme infrastructure technologique pour ouvrir nos données.

Finalement, comme tout projet, nous avons révisé de façon itérative nos actions sans perdre de vue notre objectif premier : donner de la visibilité aux compositeurs.trices agréés.es au CMCQc.

Il faut savoir qu’à l’origine, nous avions l’intention d’utiliser les possibilités offertes par le Web sémantique. Toutefois, notre pratique de travail nous a fait réaliser qu’une meilleure connaissance de nos données et de nos besoins sont les paramètres structurants et déterminants à la réussite d’un projet.

BILLET 3: TRAVAIL DE MODÉLISATION, D’ÉCHANTILLONNAGE ET DE VISUALISATION DES DONNÉES

Dans le cadre du projet exploratoire sur la musique de création et le Web sémantique, le contexte particulier de pandémie de l’hiver 2020 ne nous a pas freiné; au contraire, ce fut l’occasion de prendre le temps d’expérimenter. Au début du confinement, n’ayant pas toujours eu accès aux données de la base FileMaker à cause du télétravail, nous avons pris le parti de constituer un échantillon de données à tester. À travers ce billet de blogue, nous souhaitons vous faire part des réflexions qui ont mené à la réalisation d’un échantillon de données, des différents outils utilisés et des enjeux de visualisation de données.

Pour illustrer notre processus de travail, voici les différentes étapes :

Fig. 1 – Processus et outils utilisés pour réaliser un travail sur les données du CMCQc (cliquer pour agrandir l’image)

MODÉLISATION DES DONNÉES

Dans un premier temps, nous avons réalisé un travail préparatoire en deux temps :

  1. Réalisation de l’inventaire des données présentes dans la base de données FileMaker ;
  2. En fonction des besoins du CMCQc, nous avons créé un modèle de données en vue d’une ouverture des données. Pour ce faire, nous utilisons Wikidata afin de montrer le potentiel de ces « liens invisibles » entre les données du CMCQc et le Web de données.

MODÈLE DE DONNÉES

Dans un deuxième temps, nous avons constitué le dictionnaire de données du CMCQc tout en gardant à l’esprit ses besoins, mais aussi ceux des futurs utilisateurs.

Fig. 2 – Remue-méninges sur les données du CMCQc (cliquer pour agrandir l’image)

LA MODÉLISATION (MÉTHODE MERISE)

Plusieurs méthodes ou langages permettent la réalisation de cette modélisation, faisant partie intégrante du processus de conception d’une base de données ou d’un modèle de données, comme la méthode Merise ou le langage de représentation UML.

Élaborée en France dans les années 1970, aux suites des travaux d’Hubert Tardieu (2003), la méthode Merise permet l’analyse, la conception et la réalisation de systèmes d’information.

Basée sur le principe de séparation des données et des traitements, elle se décline en trois niveaux :

  • le niveau conceptuel : modèle entités-associations,
  • le niveau logique ou organisationnel : modèle relationnel
  • le niveau physique : implémentation dans un système de gestion de base de données (SGBD)

Cette méthode est privilégiée, car les données ne sont pas d’une grande complexité, donc une modélisation simple et une implémentation rapide suffisent.

Dans ce sens, nous avons réalisé un modèle entités-associations (niveau conceptuel) qui permet de schématiser les liens sémantiques entre une ou plusieurs entités. Une association est qualifiée à l’aide d’un verbe.

Fig. 3 – Modélisation des données du CMCQc (cliquer pour agrandir l’image)

ÉCHANTILLONNAGE DES DONNÉES

Cette tâche a un double objectif : d’une part, elle nous permettait de constater et d’analyser la représentation des compositeurs.trices du CMCQc dans Wikidata et d’autre part, de constituer un échantillon de données afin de mener des expérimentations de visualisation des données.

IDENTIFIER LES DONNÉES À EXTRAIRE DE WIKIDATA

À partir d’exemples de fiches « compositeur » dans Wikidata, nous avons identifié les propriétés nécessaires et en lien avec les données du CMC pour l’extraction de données.

Fig. 4 – Liste des propriétés Wikidata retenues pour le besoin du CMCQc (cliquer pour agrandir l’image)

INTERROGER LE SERVICE DE REQUÊTES DE WIKIDATA

Nous avons interrogé et récupéré les données dans le service de requêtes SPARQL de Wikidata à l’aide d’une requête. Cela nous a permis d’obtenir une liste au format CSV de tous les compositeurs ayant pour occupation « compositeur » et pour nationalité « canadienne » dans Wikidata, soit 2168 entrées. Lors de ce travail d’extraction, nous étions conscientes que les compositeurs.trices agréés.es au Québec ne sont pas forcément tous.tes de nationalité « canadienne », mais cela nous permettait d’obtenir un premier échantillon de travail.

Fig. 5 – Exemple de requête SPARQL (cliquer pour agrandir l’image)

PRÉPARATION DE L’ÉCHANTILLON DE DONNÉES

À l’aide du logiciel Dataiku DSS, nous avons appliqué plusieurs recettes afin de structurer le jeu de données constitué :

Fig. 6 – Traitement de l’échantillon de données dans Dataiku (cliquer pour agrandir l’image)

  • Group

Cela nous a permis de regrouper l’ensemble des données par clés (ici, les noms et prénoms des compositeurs.trices)

  • Join

Nous avons fait une jointure entre deux jeux de données : le premier comprenait la liste des 236 compositeurs.trices du CMCQc extraite de la base FileMaker et l’autre, les données issues de Wikidata. La jointure s’est faite au niveau des noms et prénoms des compositeurs.trices, permettant ainsi d’obtenir un échantillon de données de 85 compositeurs affiliés au CMCQc.

STRUCTURATION DES DONNÉES

  • Nettoyer les données : utilisation du logiciel Dataiku DSS pour nettoyer et normaliser les données (par exemple, les dates de naissance et de mort : AAAA-MM-JJ)
  • Enrichir les données :
    • « Réconcilier » avec OpenRefine : permet, sur une colonne choisie – en l’occurrence, les compositeurs – de réaliser un alignement des entités.

Pour une meilleure précision des matchs, nous avons pris le parti de faire manuellement l’appariement des données. Cela nous permet à la fois d’obtenir les compositeurs qui ont déjà une fiche dans Wikidata (140), mais aussi de faire, par la suite, un enrichissement des données présentes dans la base FileMaker (vérification et ajouts de données manquantes).

    • Enrichissement manuel du jeu de données des 85 compositeurs.trices du CMCQc : nous avons procédé à une vérification et des ajouts d’informations relatives aux lieux de formation, aux professeurs et aux prix. Pour cela, nous avons consulté comme principales sources :

 

VISUALISATION DES DONNÉES

Une fois l’échantillon constitué et normalisé, nous avons testé différentes formes de visualisation : carte, graphe, etc. En voici, quelques aperçus :

1.    EXPÉRIMENTATIONS DE VISUALISATION DES DONNÉES DANS L’OUTIL PALLADIO

Fig. 7 – Visualisation des lieux de naissance et lieux d’études des compositeurs (Palladio) (cliquer pour agrandir l’image)

Dans cette visualisation pour chaque compositeur, nous avons son lieu de naissance et les différents lieux où il est allé étudier (pour certains, le nombre peut aller jusqu’à 6 écoles ou universités). Utilisation de 7 filtres de visualisation : un pour les lieux de naissance (gris) et 6 pour les lieux d’études. Chaque filtre est relié au suivant, car il prend pour point de départ le précédent (par exemple : lieu de naissance vers lieu d’études 1 et lieu d’études 1 vers lieu d’études 2, etc.). Pour les lieux de naissance, la grandeur du cercle prend en compte le nombre de compositeurs nés à une même place.

Il s’agit de premières visualisations, mais c’est une excellente façon de rendre compte des écoles ou universités où sont allés étudier les compositeurs. Pour le moment, il n’est pas possible de savoir précisément quel compositeur a étudié où, mais à terme il serait intéressant de pouvoir suivre son parcours.

1.    EXPÉRIMENTATIONS DANS GEPHI POUR VISUALISER LES LIENS ENTRE LES COMPOSITEURS.TRICES, NOTAMMENT LES PROFESSEURS ET LES ÉLÈVES

Nous avons commencé par un travail sur deux fichiers CSV : un pour les compositeurs (label = nom et attribute = homme ou femme) et l’autre pour les relations professeurs/élèves (source = départ et target = destination) pour qu’un traitement dans le logiciel soit possible. Malgré un temps de traitement long, un travail manuel a été privilégié, car il permettait de faire une vérification et donc de réduire les erreurs par rapport à un traitement automatique.

  • Fichier compositeurs : nous avions pour base les 84 compositeurs extraits à partir de Wikidata auquel nous avons ajouté manuellement les professeurs et élèves afin de pouvoir leur attribuer un identifiant de nœud aléatoire et un attribut (homme ou femme). Cela nous a donné un fichier comprenant désormais 304 personnes.

Fig. 4 – Liste des propriétés Wikidata retenues pour le besoin du CMCQc (cliquer pour agrandir l’image)

  • Fichier relations professeurs/élèves : saisie manuelle des relations entre les professeurs et les élèves. Pour ce faire, nous avons utilisé les identifiants. Nous obtenons donc un fichier qui comprenait 368 relations.

(cliquer pour agrandir l’image)

Une fois nos deux fichiers constitués, nous créons un espace de travail dans Gephi afin de faire les premiers tests de visualisation. Pour ce faire, nous avons utilisé différents filtres de spatialisation tout en spécifiant des paramètres communs à savoir :

  • distinction homme/femme : couleur bleu pour les hommes et rouge pour les femmes
  • distinction des relations hommes/femme : couleur bleu pour les hommes, rouge pour les femmes et violet pour hommes/femmes
  • affichage des labels
  • épaisseurs des nœuds et des liens.

Fig. 8 – Relations professeurs/élèves, filtre Frutcherman Reingold (cliquer pour agrandir l’image)

Fig. 9 – Relations professeurs/élèves, filtre Force Atlas 2 (cliquer pour agrandir l’image)

La visualisation du réseau des professeurs/élèves au sein des compositeurs.trices du CMCQC se révèle pertinent. À première vue, il est possible de rendre compte de :

  • la distribution hommes-femmes (88%-12%)
  • mettre en avant l’enseignement par l’utilisation de couleurs : d’un homme à un homme (bleu), d’une femme à une femme (rouge) et d’un homme à une femme ou inversement (violet)

En définitive, ce travail a été bénéfique à plus d’un titre :

  • nous avons obtenu une meilleure connaissance de nos données, et ce, en les modélisant en fonction des besoins du CMCQc, mais aussi de ses futurs utilisateurs ;
  • nos expérimentations dans Wikidata nous ont permis tant de constituer un échantillon de données de qualité que de connaître la représentativité des compositeurs.trices agréés.es au CMCQc (de nationalité canadienne, rappelons-le) ;
  • nous nous sommes familiarisées, mais aussi autoformées à divers outils comme le service de requêtes de Wikidata, OpenRefine ou encore Gephi ;
  • grâce aux outils de visualisation de données que nous avons utilisés, nous sommes en mesure de faire ressortir les liens « abstraits » entre nos concepts et de leur donner un sens : une image fait parfois une meilleure démonstration qu’un document textuel.

N’étant pas des spécialistes de la visualisation de données, nous gardons à l’esprit que nos expérimentations ne sont que les prémices d’un projet qui se veut plus grand, notamment en interreliant les données dans le domaine de la musique de création québécoise et canadienne.

BILLET 4 – DES LECTURES ET PROJETS INSPIRANTS

MUSIQUE DE CRÉATION ET WEB DE DONNÉES

Données Ouvertes Liées du Centre de musique canadienne au Québec

Au cours de nos recherches, nous faisons le même constat que Gandon (2018), Hogan (2020) et Lévesque et al. (2020), le nombre de recherches exploratoires en Web sémantique est relativement limité et les systèmes technologiques ou études d’utilisabilité sont peu décrits dans la littérature. Afin de nourrir nos réflexions et nos expérimentations, nous avons identifié un certain nombre de projets exploratoires en Web sémantique et plus spécifiquement dans le domaine de la musique (Music BrainzDoremus, etc.). Ils ont principalement servi de sources d’inspiration, mais aussi de discussion pour nos choix numériques et technologiques.

Parmi les quelques projets que nous présentons, nous avons identifié des angles d’étude ou des fonctionnalités proches de nos objectifs en découvrabilité de la musique de création québécoise : la présentation, l’exploration et la visualisation des données, mais aussi les outils de visualisation utilisés – le logiciel Gephi, la bibliothèque JavaScript D3.js, etc. Notez que nous avons volontairement mis de côté la dimension technologique, car nous avons pris le parti, dans une prochaine phase, de verser nos données dans Wikidata.

  1. Linked Jazz (Semantic Lab, Pratt Institute)

Fig. 2 – Interface de visualisation du projet Linked Jazz – Cliquer pour agrandir l’image.

À l’aide de technologies de données ouvertes liées, ce projet de recherche en histoire du jazz permet d’exposer les relations entre musiciens et de révéler leur réseau communautaire.

  1. Exploration des adaptations musicales francophones (BAnQ et École Polytechnique Montréal)

Fig. 3 – Système d’exploration interactif des données d’adaptations musicales francophones – Cliquer pour agrandir l’image

L’objectif principal de ce projet est d’explorer de nouvelles méthodes de visualisation d’un corpus de données complexes – les adaptations musicales francophones –, autrement que par l’intermédiaire d’une boîte de recherche ou d’une liste de résultats classique ordonnée par pertinence.

  1. Projet de visualisation de données (Cinémathèque québécoise et Polytechnique Montréal)

Fig. 4 – Interface de visualisation des données – Cliquer pour agrandir l’image

Dans le cadre de l’initiative « Savoirs communs du cinéma », l’objectif de cette collaboration avec Polytechnique Montréal est de prouver la faisabilité de la publication en données ouvertes liées des informations de la base de données de la Cinémathèque québécoise. Deux thèmes ont été privilégiés pour cette visualisation de données : les groupes de personnes qui ont travaillé souvent ensemble et les patrons de carrière.

  1. Sur la piste des ventes d’antiques (Institut national d’histoire de l’art et Wedodata)

Fig. 5 – Visualisation du parcours d’un antique – Cliquer pour agrandir l’image

En collaboration avec la start-up Wedodata, spécialisée dans le Journalisme de données, l’équipe de recherche était en possession d’un corpus complet sur la vente des antiques en France au XIXe siècle pour expérimenter de nouvelles formes de visualisation donnant lieu à la conception d’un nouvel outil numérique.

RESSOURCES SUGGÉRÉES

N’ayant pas la prétention d’être à la fois des spécialistes du Web sémantique et du Web de données de même que d’être exhaustifs dans nos lectures, nous proposons la liste des ressources qui ont attiré notre attention :

Achichi, M., Bailly, R., Cecconi, C., Destandau, M., Todorov, K. et Troncy, R. (2015). DOREMUS: Doing Reusable Musical Data. Bethlehem, États-Unis. https://hal.archives-ouvertes.fr/hal-01309167

Achichi, M., Lisena, P., Todorov, K., Troncy, R. et Delahousse, J. (2019). DOREMUS : un graphe d’œuvres musicales interconnectéeshttps://hal.archives-ouvertes.fr/hal-02284533

Cannam, C., Sandler, M., Jewell, M. O., Rhodes, C. et d’Inverno, M. (2010). Linked Data and You: Bringing Music Research Software into the Semantic Web. Journal of New Music Research39(4), 313‑325. 10.1080/09298215.2010.522715

Conseil québécois de la Musique. (2019). L’exemple de mutualisation de données des musiques de concert du CQM. Repéré à https://www.youtube.com/watch?v=FhQ8a-B_8gw

Culture Laval. (2020, 5 octobre). Guide de la découvrabilité et des bonnes pratiques sur le Web. Culture Lavalhttps://culturelaval.ca/guide-decouvrabilite-bonnes-pratiques/

Gandon, F. (2018). A Survey of the First 20 Years of Researchon Semantic Web and Linked Data. Revue des Sciences et Technologies de l’Informationhttps://hal.inria.fr/hal-01935898/document

Hendler, J., Gandon, F. et Allemang, D. (2020). Semantic Web for the Working Ontologist: Effective Modeling for Linked Data, Rdfs, and Owl. ACM Books.

Héon, M., Plamondon, J., Paquette, G. et Aubry, C. (2019). Colloque sur le web sémantique au Québec | Web sémantique : culture de la donnée et développement socio-économique. Repéré à https://websemantique.ca/

Hogan, A. (2020). The Semantic Web : Two Decades On. Semantic Web1(11), 169‑185. 10.3233/SW-190387

Lévesque, F., St-Germain, M., Piché, D., Gauvin, J.-F., Gagnon, M. et Hurtut, T. (2020). MusX: Online Exploring and Visualizing Graph-Based Musical Adaptations10.31219/osf.io/2ekrm

Plamondon, J. et Fondation Jean-Pierre Perreault. (2019, novembre). Bien documenter pour favoriser la découverte en ligne – Travailler avec les métadonnées. https://espaceschoregraphiques2.com/wp-content/uploads/2019/12/Guide-me%CC%81tadonne%CC%81es-FJPP.pdf

Wikidata. WikiProjet Musique (2014). Repéré à https://www.wikidata.org/wiki/Wikidata:WikiProject_Music/fr

VERS D’AUTRES FORMES D’EXPÉRIMENTATION

Comme le mentionne Josée Plamondon dans un de ses billets de blogue, nous n’avons pas tous les compétences et les ressources pour évaluer, modéliser et connecter les données avec les technologies du Web sémantique. De plus, par un effet de mode pour les ontologies et graphes de connaissances, nous perdons bien souvent nos besoins de vue et à quelles problématiques nous souhaitons répondre. Or, comme nous l’avons mentionné précédemment, notre pratique de travail nous a fait réaliser qu’une meilleure connaissance de nos données et de nos besoins sont les paramètres structurants et déterminants à la réussite d’un projet.

Grâce à la documentation et l’exploration de ces quelques projets numériques, nous avons pu expérimenter et faire parler nos données – comme en témoigne le billet précédent avec la visualisation du réseau des professeurs et élèves des compositeurs.trices agréés.es au CMCQc. Nous sommes aussi en mesure de nous projeter et d’imaginer le parcours d’une composition – comme la visualisation du parcours d’un antique –, partant du lieu où elle a été jouée pour la première fois et illustrant par la suite toutes les places où elle a été jouée, car nous disposons d’une partie de ces données et nous pourrions les enrichir en les liant avec d’autres.

BILLET 5: BILAN D’UNE ANNÉE EXPLORATOIRE

MUSIQUE DE CRÉATION ET WEB DE DONNÉES

PROJET DOLCE: BILAN D’UNE ANNÉE EXPLORATOIRE

Ce billet de blogue clôture la série consacrée à cette année exploratoire de recherche et d’expérimentation du Web sémantique, des données ouvertes et liées en musique de création québécoise. Nous avons eu l’opportunité à la fois de prendre connaissance et de maîtriser nos données, mais aussi de nous documenter afin de choisir le modèle et l’infrastructure technologique pouvant nous permettre l’ouverture de ces données.

À travers nos recherches, nous nous sommes formées au Web sémantique et autres sujets connexes tout en identifiant les projets les plus novateurs dans le domaine. Afin d’orienter notre travail, une phase d’expérimentation nous a aidés à prendre conscience du véritable potentiel d’interconnexion des données du CMCQc. Grâce à des outils de visualisation de données, nous sommes en mesure de faire ressortir les liens « abstraits » entre nos concepts et de leur donner un sens.

CONNAÎTRE SON ÉCOSYSTÈME DE TRAVAIL
Formulé comme tel, cela paraît indispensable pour la bonne réalisation d’un projet. Or, lorsqu’on arrive dans un nouvel organisme, il n’est pas toujours aisé de saisir le contexte organisationnel tout en suivant les objectifs d’un nouveau projet – surtout lorsqu’on n’est pas les initiateurs.trices.

Comme mentionné dans notre billet exposant notre méthodologie de travail, nous avons instauré une double dynamique de travail :

  1. cerner les besoins et objectifs du projet d’ouverture des données en musique de création au CMCQc
  2. comprendre et assimiler les concepts du Web sémantique et ses sujets connexes

Pour nous, ce fut un long processus d’assimilation de concepts et de liens, mais cela nous a permis de comprendre l’écosystème de travail au CMCQc et la mise en place d’une pratique commune de travail :

  • niveaux de compétences et de connaissances variés dans le domaine avec l’avantage d’avoir des expertises de haut niveau en musique et en technologies numériques, mais aussi de pouvoir consulter des personnes-ressources en valorisation des données patrimoniales
  • complexité des concepts du Web sémantique (schéma de métadonnées, ontologies, etc.) : difficulté à appréhender et comprendre, mais surtout à appliquer pour répondre à nos besoins
  • manque de documentation autour des projets exploratoires en Web de données dont les tenants et aboutissants seraient similaires aux nôtres

Fig. 1 – Écosystème de travail au CMCQc (cliquer sur l’image pour l’agrandir)

Finalement, nous retenons et soulignons que c’est le travail sur nos besoins propres qui est primordial et déterminant dans l’avancée et la réussite d’un tel projet. Il s’agit de la ligne directrice – pour ne pas dire stratégique – qui orientera les choix et les prises de décision afin d’être en mesure de l’adapter au mieux et en fonction de nos capacités de réalisation.

PLURIDISCIPLINARITÉ : COMPLÉMENTARITÉ DES PROFILS ET DES COMPÉTENCES

Dans la réalisation de ce projet, l’une des forces était la complémentarité de nos profils professionnels, chacun ayant une expertise de haut niveau respectivement en musique, en bases de données et en données ouvertes et liées.
Cette pluridisciplinarité nous a permis d’avoir des approches certes différentes, mais additionnelles. Dans notre cas, l’étude et l’analyse des données en sont un bon exemple. Nous avons eu deux visions des données : l’une centrée sur la musique contemporaine et son environnement, sa culture, son histoire et l’autre sur la donnée en tant que telle. Leur analyse a permis de constater :

  • malgré une manipulation quotidienne des données, il est difficile de se rendre compte de leur potentiel d’interconnexion
  •  l’importance de la contextualisation de la donnée et par extension, sa liaison avec d’autres permettant une désambiguïsation
  • l’expérimentation de diverses formes de visualisation des données : exploitation et exploration des données

POUR CONCLURE CETTE ANNÉE EXPLORATOIRE AU CMCQc

Au cours de ce projet, nous avons acquis de meilleures connaissances numériques et ceci a facilité notre exploration de projets de données.
Nous avons rapidement élaboré une méthodologie de travail qui s’accordait bien à notre rythme et aux objectifs du projet. Une bonne communication a aussi suscité l’enthousiasme pour le projet et favoriser le partage de connaissances. Pour les prochaines étapes de développement de l’initiative, il nous a été évident que le choix de Wikidata était la voie à prendre, car l’intérêt grandissant pour l’utilisation de cette plateforme de données ouvertes et liées est indéniable.

Tout au long du projet, nous avons documenté nos activités, nos apprentissages, nos sources, nos visualisations et tableaux de données. Ce travail nous aura amenés à produire une documentation finale de qualité et nous a aidé à prendre du recul pour faire une synthèse de cette année exploratoire. Dans ce sens, nous avons pris le parti de faire une série de billets de blogue plutôt qu’un seul guide. Nous avons constaté qu’il existait très peu de documentation sur les différents parcours de projets que nous avons suivis, d’où cette présente initiative, pour – humblement – combler ce manque.

Nous ne pouvons qu’encourager des initiatives numériques et de partage permettant la découvrabilité de la musique de création québécoise et canadienne et ne perdons pas notre objectif premier de promouvoir et diffuser les œuvres de nos créateurs.trices.