Link Search Menu Expand Document

Annexe 8. Exemple de FAIRisation par l’intermédiaire du versement de données dans un dépôt

Rappel: L’exemple de la FAIRisation qui suit se base entièrement sur le programme de la FAIRisation proposé plus haut (voir supra “Étapes de la FAIRisation”). Chaque étape de la FAIRisation a été appliquée au corpus “Comptabilités Principautés S/E”. Le dépôt retenu pour le versement des données est Zenodo (administré par le CERN et soutenu par la Commission européenne et les programmes Horizon 2020 et OpenAIRE). (Sur le choix d’un dépôt voir supra Annexe 3 et Annexe 2).

À noter cependant qu’il s’agit de la FAIRisation “allégée”. De fait, le corpus “Comptabilités Principautés S/E” contient aussi bien les textes que les images; la FAIRisation qui suit ne s’applique qu’aux textes. On retient également que dans l’hypothèse du versement des données dans un dépôt institutionnel, la partie “métadonnées” des principes FAIR est garantie avant tout par le dépôt. Dans cette optique, l’auteur des données garantit essentiellement les principes FAIR liés aux données (voir supra “Qui FAIRise quoi?” et les Annexe 1 et Annexe 2).

Le dépôt Zenodo possède le mécanisme de la gestion des versions (le versioning), ce qui permet, par la suite, de corriger, d’ajouter et de modifier les données au fur et à mesure. À noter toutefois que la mise à jour du dépôt passe ne pas par la correction des fichiers déjà déposés, mais par la création d’une nouvelle version avec son propre identifiant (DOI). Le jeu de données déposé possédera également un identifiant (DOI) “global” qui regroupe toutes les versions. Sur le versioning dans le dépôt Zenodo voir: Zenodo - DOI versioning.

Pour le dépôt qui résulte de cette FAIRisation voir: https://zenodo.org/record/4919334.

Pour d’autres exemples des dépôts des corpus médiévaux, voir:

  • He, Sheng, Schomaker, Lambert, Samara, Petros, & Burgers, Jan. (2016). MPS Data set with images of medieval charters for handwriting-style based dating of manuscripts (Version v1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.1194357
  • Koho, Mikko, Tuominen, Jouni, Lewis, David, Ikkala, Esko, Heller, Benjamin, Thomson, Emma, … Fraas, Mitch. (2021). Mapping Manuscript Migrations Knowledge Graph (Version 2.2.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.4440464
  • Silvia Corbara, Alejandro Moreo, Fabrizio Sebastiani, & Mirko Tavoni. (2020). Two Datasets for the Computational Authorship Analysis of Medieval Latin Texts (Version 2.00) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.4298503

Table des matières
  1. Présentation des données
  2. FAIRisation des données
    1. 1. Vérification des données
    2. 2. Préparation des métadonnées
    3. 3. Mise des données dans un dépôt

Présentation des données

(voir fiche détaillée du corpus “Comptabilités Principautés S/E”)

Corpus: Comptabilités Principautés S/E
Format des données: XML (texte)
Standard des données: XML TEI P5
Unité de données: 25 comptes (=25 fichiers XML)
Affichage et stockage des données: les données sont affichées sur un site web personnel, mais sont stockées et interrogées via la base eXist-db.


FAIRisation des données

(voir supra le programme complet et toutes les étapes de la FAIRisation “Étapes de la FAIRisation”)

1. Vérification des données

1.1. S’assurer que les langages et les formats/extensions utilisés pour l’encodage des données sont connus, largement utilisés et, de préférence, libres. XML est un format connu et largement utilisé. FAIR: I1 - rempli.

1.2. S’assurer que les données sont explicites et compréhensibles en l’état. Cela signifie que toutes les abréviations, tous les termes ambigus ou toutes les balises utilisées dans la description des données doivent être clairement expliqués ou avoir déjà une documentation existante. XML TEI P5 est un standard connu qui possède une documentation. FAIR: I2 - rempli.

1.3. Créer un jeu de données du corpus. (Le plus souvent c’est un seul fichier de l’archive numérique, par exemple sous format zip). On crée un fichier de l’archive numérique zip de tous les fichiers XML.

2. Préparation des métadonnées

2.1. Préparation des métadonnées complètes.

2.1.1. S’assurer que les métadonnées contiennent le plus de détails possible. (Se référer au modèle des métadonnées détaillées, voir Annexe 4) Il n’existe aucune métadonnée pour le jeu de données du corpus. On écrit (pour l’instant dans n’importe quel fichier texte) les métadonnées en se basant sur le modèle de l’Annexe 4. Ces métadonnées seront par la suite utilisées lors de la mise des données dans un dépôt. FAIR: F2 - en attente.

2.1.2. S’assurer que les données disposent une licence et qu’elle est clairement mentionnée dans les métadonnées. (Les données peuvent avoir tous types de licence, y compris les licences “non libres de droits”). Si cela n’a pas été encore fait, on ajoute les informations sur la licence dans le brouillon des métadonnées créées précédemment. Licence des données (corpus “Comptabilités Principautés S/E”): Open Access (Creative Commons Attribution 4.0 International). FAIR: R1.1 - en attente.

2.1.3. S’assurer que les métadonnées contiennent un historique détaillé de la provenance des données. (Par exemple, les données peuvent être produites durant un autre projet et ensuite réutilisées, corrigées et modifiées par le présent projet). Si cela n’a pas été encore fait, on ajoute les informations sur la provenance des données dans le brouillon des métadonnées créées précédemment. FAIR: R1.2 - en attente.

2.1.4. S’assurer que les données utilisent des standards (s’il en existe) de présentation, d’organisation ou d’archivage communément utilisés dans le domaine scientifique auquel ces données appartiennent. (Ces informations seront par la suite utilisées dans les métadonnées). Si cela n’a pas été encore fait, on ajoute les informations sur les standards dans le brouillon des métadonnées créées précédemment. Standards, conventions des données utilisées (corpus “Comptabilités Principautés S/E”): XML TEI P5. FAIR: R1.3 - en attente.

2.2. S’assurer que dans les cas où les présentes données peuvent être reliées à d’autres données (par exemple, les données textuelles peuvent être reliées aux images des manuscrits), les métadonnées contiennent des références à ces données reliées (par exemple le PID des données reliées, voir F1). Le type de lien entre les données doit être explicitement mentionné. (Par exemple, “ce texte est la transcription de ce manuscrit” ou “ce texte a été écrit par cette personne”). Si cela n’a pas été encore fait, on ajoute les informations sur les données liées dans le brouillon des métadonnées créées précédemment. FAIR: I3. - en attente.

3. Mise des données dans un dépôt

3.1. Enregistrement des données et des métadonnées.

3.1.1. Choisir une ressource consultable (par exemple, un dépôt de données) qui répond à tous les critères FAIR applicables aux métadonnées (F1, F3, F4, A1.1, A1.2, A2, I1, I2, I3, R1.1, R1.2, R1.3). La plupart des grands dépôts de données affichent de façon claire leur conformité aux critères FAIR. (Pour plus de détails sur le choix de dépôt et sur les critères FAIR auxquels il doit répondre voir infra Annexe 3) On choisit le dépôt Zenodo. Ce dépôt de données est une infrastructure officielle hébergée par le CERN et financée par l’European Commission (OpenAIRE & Horizon 2020). Ce dépôt répond à tous les critères FAIR, voir Zenodo-FAIR Principles.

3.1.2. Enregistrer les données et les métadonnées y associées dans une ressource consultable choisie précédemment. On enregistre les données et les métadonnées dans le dépôt Zenodo. FAIR: F4 - rempli. FAIR: F2 - rempli. FAIR: R1.1 - rempli. FAIR: R1.2 - rempli. FAIR: R1.3 - rempli. FAIR: I3. - rempli.

Image 1 & 2. Ajouter le jeu de données.

Image 2a. Ajouter la “communauté” à laquelle appartient le jeu de données. (ici, la communauté “COSME2”).

Image 3 & 8. Remplir le formulaire des métadonnées.

Image 9. Uploader le fichier du corpus.

Image 10. Publier le dépôt en ligne.

Le dépôt est en ligne: https://zenodo.org/record/4919334


3.2. Vérification de l’accessibilité et de l’exactitude des (méta)données.

3.2.1. Vérifier que les données possèdent un identifiant persistant et unique (PID) (fourni par la ressource où les données sont enregistrées). Le jeu de données possède l’identifiant DOI (“global”): http://doi.org/10.5281/zenodo.4919334 FAIR: F1 - rempli.

3.2.2. Vérifier que le PID des données est mentionné dans les métadonnées. Sur la page du dépôt on choisir Export, par exemple JSON:

Image 11. Sélection de fichier d’export des métadonnées.

Dans le texte qui s’affiche, on trouve l’identifiant:

Image 12. Le PID des données est mentionnées dans les métadonnées.

FAIR: F3 - rempli.

3.2.3. Vérifier que les données sont accessibles via un protocole de communication ouvert, gratuit et largement utilisé. Si les données sont enregistrées dans une ressource qui est accessible via un site internet, ce critère est automatiquement rempli. Le jeu de données est accessible via le dépôt Zenodo (voir Zenodo-FAIR Principles). FAIR: A1.1 - rempli.

3.2.4. Vérifier que les données sont accessibles via un protocole de communication qui permet, si nécessaire, de mettre en place une procédure d’authentification et d’autorisation. Si nécessaire, il est possible de restreindre l’accès aux données mises en ligne dans le dépôt Zenodo (voir Zenodo-FAIR Principles). FAIR: A1.2 - rempli.

3.2.5. Vérifier que les métadonnées seront accessibles même lorsque les données elles-mêmes ne seront plus disponibles. (De façon ordinaire ce critère est considéré comme rempli, si la condition F4 est satisfaite). Le dépôt Zenodo garantit l’accessibilité des métadonnées durant toute l’existence du dépôt (voir Zenodo-FAIR Principles). FAIR: A2 - rempli.


Copyright © 2021-2022 Consortium Sources Médiévales 2 | Licence CC BY-NC-ND 4.0