Link Search Menu Expand Document

Vue d’ensemble

Table des matières
  1. Données des corpus
  2. Tableau récapitulatif des corpus et de leur correspondance aux principes FAIR

Le consortium COSME² soutient 29 corpus différents développés au sein de 15 universités et institutions académiques françaises et étrangères. Chaque corpus représente l’ensemble des informations issues des différentes sources de l’histoire médiévale. Le positionnement du consortium COSME2 est pluridisciplinaire et fait appel à une communauté scientifique largement ouverte à toutes les disciplines, de l’archéologie jusqu’à la philosophie.

Sur les 29 corpus, 16 possèdent un site internet personnel et 11 sont ou seront hébergés par la plateforme TELMA (4 corpus le sont déjà, 7 autres sont en cours de migration vers TELMA). Parmi les corpus présents sur internet, la totalité est hébergée sur des serveurs institutionnels (CNRS, Universités, Huma-Num).

Données des corpus

Les données produites par les différents corpus du consortium COSME² appartiennent aux données des sciences humaines et sociales et plus précieusement aux données issues de l’histoire médiévale. Ceci explique la prédominance de certains types de données ou de certains formats et dicte le choix des standards appliqués aux données.

En ce qui concerne les types de données, la majorité des données sont textuelles. Outre les données textuelles, plusieurs corpus possèdent également des données visuelles (photos des manuscrits, épigraphie, armoiries). Plusieurs corpus possèdent déjà, ou envisagent d’en avoir, des données géographiques (par exemple les géoréférencements des monastères).

Les formats les plus utilisés pour les données textuelles sont xml (pour les textes balisés) et txt, doc (pour les textes non balisés). Certains corpus ont mis en place différents modèles complexes de la représentation des données, notamment les bases de données relationnelles; la grande partie de ces bases s’appuie sur des données au format sql. Quelques projets font également appel aux tableurs (format csv ou xlsx). Enfin, toutes les données visuelles utilisent le format jpg. Les formats utilisés par les corpus du consortium sont donc assez répandus et, à quelques exceptions près, ils ne nécessitent pas de faire appel à des logiciels spécifiques pour la lecture des données.

Enfin, à l’heure actuelle il ne semble pas exister des conventions ou des standards largement admis pour encoder ou représenter sous une forme numérique différents types de données issues de l’histoire médiévale. On ne peut que signaler l’utilisation des recommandations de TEI P5 ou EAD pour l’encodage des données sous format xml.

Les objectifs et moyens divers de chaque corpus peuvent en outre dicter des démarches variées dans la mise en pratique des principes FAIR. En définitive, il est possible d’envisager deux approches: la mise des données dans un dépôt de données institutionnel ou l’élaboration d’une infrastructure personnelle de gestion des données. (Pour plus de détails, voir “Écosystème FAIR”).

Tableau récapitulatif des corpus et de leur correspondance aux principes FAIR

Le tableau qui suit permet d’avoir un aperçu des informations principales sur chaque corpus et ses données et sur leur correspondance (simplifiée) aux principes FAIR. Pour plus de détails sur chaque corpus, voir: Corpus. Ces informations sont mises à jour au fur et à mesure de l’avancement des opérations de la FAIRisation.

Corpus du consortium COSME² et leur correspondance aux principes FAIR (voir: Corpus)

(glissez ou déroulez le tableau à gauche et à droite pour le voir en entier)

Télécharger le tableau récapitulatif en version PDF

Corpus Format(s) Taille Écosystème FAIR Findable Accessible Interoperable Reusable
Europange pdf, jpg, sql 12 Go infrastructure personnelle, Isidore Oui Oui Oui Oui
Transscript sql, jpg (TELMA), json (Zenodo) quelques Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Aposcripta sql (TELMA), json (Zenodo) quelques Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Armma sql, jpg (WordPress), csv (Zenodo) texte: 21 Mo; images: 17,2 Go dépôt de données (Zenodo) Oui Oui Oui Oui
Bullarium Franciscanum sql (TELMA), json (Zenodo) quelques Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Cartulaires italiens en cours de création sur TELMA quelques Mo Les données ne sont pas prêtes pour la FAIRisation Les données ne sont pas prêtes pour la FAIRisation Les données ne sont pas prêtes pour la FAIRisation Les données ne sont pas prêtes pour la FAIRisation Les données ne sont pas prêtes pour la FAIRisation
Cartulaires walllons sql (TELMA), json (Zenodo) quelques Mo dépôt de données (Zenodo) Oui Oui Oui Oui
CartulR sql (TELMA), json (Zenodo) quelques Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Castellanie xml, jpg ≈ 1Go dépôt de données (Zenodo) Oui Oui Oui Oui
CBMA (Corpus Burgundiae Medii Aevi) fmp12, csv, tab, xlsx, xml, jpg, txt, pdf, doc/docx ≈ 30-50 Mo dépôt de données (Nakala) Oui Oui Oui Oui
CEMA (Cartae Europae Medii Aevi) xml, txt, csv, ods, sql, pdf textes: 700 Mo; bibliographie: < 1 Mo; édition numérisé (3200 pdf): 198 Go en cours de création du jeu de données Partiellement Partiellement Partiellement Non
CIFM-CBMA (Corpus des Inscriptions de la France Médiévale) (Corpus Burgundiae Medii Aevi) csv (export de CBMA) > txt; xml (textes lemmatisés pour TXM) ≈ 1 Mo dépôt de données (Nakala) Oui Oui Oui Oui
Col&Mon (Collégiales et monastères de la réforme carolingienne au Concile de Trente) sql, jpg, png 500 Ko (base Col&Mon); 15 Mo (base Collégiales) + 100 Mo images; 10 Mo (base Monastères) + 1 Go images à venir Partiellement Partiellement Partiellement Partiellement
Comptabilités Principautés S/E xml, jpg > 600 Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Devise sql, jpg (site web personnel), sql (Zenodo) texte: 5,2 Mo; images: 116 Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Distinguo xml ≈ 15 Mo à venir Partiellement Partiellement Partiellement Partiellement
e-Cartae xml, jpg 2,74 Mo (266 fichiers) dépôt de données (Zenodo) Oui Oui Oui Oui
Golubovic transformation en cours vers xml quelques Mo Les données ne sont pas prêtes pour la FAIRisation Les données ne sont pas prêtes pour la FAIRisation Les données ne sont pas prêtes pour la FAIRisation Les données ne sont pas prêtes pour la FAIRisation Les données ne sont pas prêtes pour la FAIRisation
Lettres Jean XXII sql (TELMA), json (Zenodo) < 3 Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Originaux 1&2 sql quelques Mo Non FAIRisé* Partiellement Partiellement Partiellement Partiellement
PALM (Plateforme d’analyse linguistique médiévale) xml 22 Mo Les données ne sont pas prêtes pour la FAIRisation Partiellement Partiellement Partiellement Partiellement
Répertoire des anciens inventaires d’archives ecclésiastiques… xml (site AN, Zenodo); csv (migration vers TELMA) 123 Ko infrastructure personnelle (salle des inventaires virtuelle des AN); dépôt de données (Zenodo) Oui Oui Oui Oui
Ressources médiévistes sql (Heurist), csv (Zenodo) < 1 Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Scripta xml 65.4 Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Scriptorium sql 20,7 Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Sigilla sql, jpg (Drupal), csv (Zenodo) quelques Mo dépôt de données (Zenodo) Oui Oui Oui Oui
Studium parisiense documents json (MongoDB) impossible à définir à venir Partiellement Partiellement Partiellement Non
Titulus xml, jpg 1.56 Go dépôt de données (Zenodo) Oui Oui Oui Oui
Prosopange sql, pdf, json, geoJson 62 Mo à venir Partiellement Partiellement Partiellement Non

* - En l’absence d’un accord explicite de(s) auteur(s) du corpus, les données n’ont pas pu être FAIRisées.


Copyright © 2021-2022 Consortium Sources Médiévales 2 | Licence CC BY-NC-ND 4.0