Vue d’ensemble
Table des matières
Le consortium COSME² soutient 29 corpus différents développés au sein de 15 universités et institutions académiques françaises et étrangères. Chaque corpus représente l’ensemble des informations issues des différentes sources de l’histoire médiévale. Le positionnement du consortium COSME2 est pluridisciplinaire et fait appel à une communauté scientifique largement ouverte à toutes les disciplines, de l’archéologie jusqu’à la philosophie.
Sur les 29 corpus, 16 possèdent un site internet personnel et 11 sont ou seront hébergés par la plateforme TELMA (4 corpus le sont déjà, 7 autres sont en cours de migration vers TELMA). Parmi les corpus présents sur internet, la totalité est hébergée sur des serveurs institutionnels (CNRS, Universités, Huma-Num).
Données des corpus
Les données produites par les différents corpus du consortium COSME² appartiennent aux données des sciences humaines et sociales et plus précieusement aux données issues de l’histoire médiévale. Ceci explique la prédominance de certains types de données ou de certains formats et dicte le choix des standards appliqués aux données.
En ce qui concerne les types de données, la majorité des données sont textuelles. Outre les données textuelles, plusieurs corpus possèdent également des données visuelles (photos des manuscrits, épigraphie, armoiries). Plusieurs corpus possèdent déjà, ou envisagent d’en avoir, des données géographiques (par exemple les géoréférencements des monastères).
Les formats les plus utilisés pour les données textuelles sont xml (pour les textes balisés) et txt, doc (pour les textes non balisés). Certains corpus ont mis en place différents modèles complexes de la représentation des données, notamment les bases de données relationnelles; la grande partie de ces bases s’appuie sur des données au format sql. Quelques projets font également appel aux tableurs (format csv ou xlsx). Enfin, toutes les données visuelles utilisent le format jpg. Les formats utilisés par les corpus du consortium sont donc assez répandus et, à quelques exceptions près, ils ne nécessitent pas de faire appel à des logiciels spécifiques pour la lecture des données.
Enfin, à l’heure actuelle il ne semble pas exister des conventions ou des standards largement admis pour encoder ou représenter sous une forme numérique différents types de données issues de l’histoire médiévale. On ne peut que signaler l’utilisation des recommandations de TEI P5 ou EAD pour l’encodage des données sous format xml.
Les objectifs et moyens divers de chaque corpus peuvent en outre dicter des démarches variées dans la mise en pratique des principes FAIR. En définitive, il est possible d’envisager deux approches: la mise des données dans un dépôt de données institutionnel ou l’élaboration d’une infrastructure personnelle de gestion des données. (Pour plus de détails, voir “Écosystème FAIR”).
Tableau récapitulatif des corpus et de leur correspondance aux principes FAIR
Le tableau qui suit permet d’avoir un aperçu des informations principales sur chaque corpus et ses données et sur leur correspondance (simplifiée) aux principes FAIR. Pour plus de détails sur chaque corpus, voir: Corpus. Ces informations sont mises à jour au fur et à mesure de l’avancement des opérations de la FAIRisation.
Corpus du consortium COSME² et leur correspondance aux principes FAIR (voir: Corpus)
(glissez ou déroulez le tableau à gauche et à droite pour le voir en entier)
Télécharger le tableau récapitulatif en version PDF
Corpus | Format(s) | Taille | Écosystème FAIR | Findable | Accessible | Interoperable | Reusable |
---|---|---|---|---|---|---|---|
Europange | pdf, jpg, sql | 12 Go | infrastructure personnelle, Isidore | Oui | Oui | Oui | Oui |
Transscript | sql, jpg (TELMA), json (Zenodo) | quelques Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Aposcripta | sql (TELMA), json (Zenodo) | quelques Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Armma | sql, jpg (WordPress), csv (Zenodo) | texte: 21 Mo; images: 17,2 Go | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Bullarium Franciscanum | sql (TELMA), json (Zenodo) | quelques Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Cartulaires italiens | en cours de création sur TELMA | quelques Mo | Les données ne sont pas prêtes pour la FAIRisation | Les données ne sont pas prêtes pour la FAIRisation | Les données ne sont pas prêtes pour la FAIRisation | Les données ne sont pas prêtes pour la FAIRisation | Les données ne sont pas prêtes pour la FAIRisation |
Cartulaires walllons | sql (TELMA), json (Zenodo) | quelques Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
CartulR | sql (TELMA), json (Zenodo) | quelques Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Castellanie | xml, jpg | ≈ 1Go | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
CBMA (Corpus Burgundiae Medii Aevi) | fmp12, csv, tab, xlsx, xml, jpg, txt, pdf, doc/docx | ≈ 30-50 Mo | dépôt de données (Nakala) | Oui | Oui | Oui | Oui |
CEMA (Cartae Europae Medii Aevi) | xml, txt, csv, ods, sql, pdf | textes: 700 Mo; bibliographie: < 1 Mo; édition numérisé (3200 pdf): 198 Go | en cours de création du jeu de données | Partiellement | Partiellement | Partiellement | Non |
CIFM-CBMA (Corpus des Inscriptions de la France Médiévale) (Corpus Burgundiae Medii Aevi) | csv (export de CBMA) > txt; xml (textes lemmatisés pour TXM) | ≈ 1 Mo | dépôt de données (Nakala) | Oui | Oui | Oui | Oui |
Col&Mon (Collégiales et monastères de la réforme carolingienne au Concile de Trente) | sql, jpg, png | 500 Ko (base Col&Mon); 15 Mo (base Collégiales) + 100 Mo images; 10 Mo (base Monastères) + 1 Go images | à venir | Partiellement | Partiellement | Partiellement | Partiellement |
Comptabilités Principautés S/E | xml, jpg | > 600 Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Devise | sql, jpg (site web personnel), sql (Zenodo) | texte: 5,2 Mo; images: 116 Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Distinguo | xml | ≈ 15 Mo | à venir | Partiellement | Partiellement | Partiellement | Partiellement |
e-Cartae | xml, jpg | 2,74 Mo (266 fichiers) | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Golubovic | transformation en cours vers xml | quelques Mo | Les données ne sont pas prêtes pour la FAIRisation | Les données ne sont pas prêtes pour la FAIRisation | Les données ne sont pas prêtes pour la FAIRisation | Les données ne sont pas prêtes pour la FAIRisation | Les données ne sont pas prêtes pour la FAIRisation |
Lettres Jean XXII | sql (TELMA), json (Zenodo) | < 3 Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Originaux 1&2 | sql | quelques Mo | Non FAIRisé* | Partiellement | Partiellement | Partiellement | Partiellement |
PALM (Plateforme d’analyse linguistique médiévale) | xml | 22 Mo | Les données ne sont pas prêtes pour la FAIRisation | Partiellement | Partiellement | Partiellement | Partiellement |
Répertoire des anciens inventaires d’archives ecclésiastiques… | xml (site AN, Zenodo); csv (migration vers TELMA) | 123 Ko | infrastructure personnelle (salle des inventaires virtuelle des AN); dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Ressources médiévistes | sql (Heurist), csv (Zenodo) | < 1 Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Scripta | xml | 65.4 Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Scriptorium | sql | 20,7 Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Sigilla | sql, jpg (Drupal), csv (Zenodo) | quelques Mo | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Studium parisiense | documents json (MongoDB) | impossible à définir | à venir | Partiellement | Partiellement | Partiellement | Non |
Titulus | xml, jpg | 1.56 Go | dépôt de données (Zenodo) | Oui | Oui | Oui | Oui |
Prosopange | sql, pdf, json, geoJson | 62 Mo | à venir | Partiellement | Partiellement | Partiellement | Non |
* - En l’absence d’un accord explicite de(s) auteur(s) du corpus, les données n’ont pas pu être FAIRisées.