Liste de liens :
Liste de liens :
De la même manière que TXM gère les textes sous une représentation standard avec XML-TEI, il s'agit de se rapprocher des standard de métadonnées au delà du teiHeader.
Ce rapprochement doit servir à :
Ces standards de métadonnées sont à mettre en relation avec les standards de références bibliographiques (RIS, Bibtex, Zotero…).
Ce rapprocher de ces standards peut :
Par exemple : un certain nombre de thèses gèrent leur corpus de sources et de références avec Zotero. C'est une bonne pratique et ça aide forcément à la rédaction de la thèse (pour produire les références bibliographiques). Une référence pointe souvent sur le PDF de la ressource. Un corpus d'analyse peut alors facilement être construit à partir de champs Zotero.
On peut envisager un import bibliographique pur, de type Zotero (avec une API plutôt que des fichiers sources) pour à la fois importer des métadonnées ET des éléments textuels composant les sections d'un texte par référence bibliographique (de façon analogue à l'import d'un tableau CSV - qui pour l'instant prend la forme de la macro CSV2XML - où on précise quelles colonnes doivent servir de métadonnées et quelles colonnes doivent servir de corps de texte).
Actuellement, le modèle des métadonnées d'un texte est une liste plate de métadonnées nom/valeur à peine typée.
Le standard Dublin Core sert à décrire toutes les ressources numériques du web :
Le standard OLAC, qui s'appuie sur Dublin Core, spécialise encore plus pour les ressources linguistiques.
Le standard européen CMDI est le plus développé pour les ressources linguistiques (voir la liste des standard utilisés par CLARIN).
Le standard METS est développé dans le cadre des missions de conservation des bibliothèques.
Les métadonnées sont lues principalement depuis le fichier metadata.csv. Certains modules peuvent aller chercher des métadonnées dans le header des textes (BFM: liste de xpath). Les pagers et compilers des modules d'import lisent les attributs des éléments text.
Le format CSV n'étant pas assez stable entre les logiciels tableurs. TXM 0.8.0 change sa source principale en privilégiant dans l'ordre les fichiers :
AL (2018-11-15) : Comportement à définir s'il y a à la fois un fichier de métadonnées et des attributs de text. Proposition :
Les métadonnées des textes sont écrites dans la balise text des fichiers XML-TXM. C'est à cet endroit que les pagers et compilers des modules d'import vont chercher les informations
Implémenter la spécification du format XML-TXM pour écrire les métadonnées des textes dans le teiHeader
Il y a de nombreuses implémentations Java :
> Pour TXM, il semble qu’il y a une demande d’exposition des textes en > OAI. Le protocole, même rustique, pose des problèmes dès qu’il faut le > déployer. Il m’est arrivé d’avoir écrit une implémentation, les deux > points difficiles : > * garder la mémoire des suppressions > * assurer les “resumption tokens”, c’est à dire une information > permettant de télécharger tout un catalogue par sections, en sachant > recommencer en cas de connexion interrompue. > Cette implémentation java est recommandée par la BNF > http://www.oclc.org/research/activities/oaicat.html > J'ai vu aussi de la demande pour des sitemaps Google, juste une liste > d’URI, mais derrière tu peux passer les descripteurs en <meta> HTML. On > peut aussi envoyer des notices par flux RSS, c’est intéressant pour > annoncer des nouveautés.
Et aussi le mail de SLH 'Sujet : OAICat [OCLC - Activities], Date : Fri, 31 Dec 2010 12:54:16 +0100'
http://www.oclc.org/research/activities/oaicat/default.htm
Il y a des projets français sur ce sujet :
Il y a peut-être des travaux mettant en relation teiHeader et Dublin Core voire Unimarc.
Il y a peut-être des travaux mettant en relation Dublin Core et RIS, Bibtex ou Zotero.
Qui Quand Quoi