Outils pour utilisateurs

Outils du site


public:spec_metadonnees

Gestion standard des métadonnées : OAI-PMH, Dublin Core, OLAC, CMDI, METS

Objectif

De la même manière que TXM gère les textes sous une représentation standard avec XML-TEI, il s'agit de se rapprocher des standard de métadonnées au delà du teiHeader.

Ce rapprochement doit servir à :

  • être plus compatible avec la lecture de ressources utilisant ces standards
  • offrir des services d'export de textes et de corpus qui respectent ces standards
  • offrir des services d'exposition et de découverte de corpus et de textes hébergés dans un portail TXM
  • à profiter d'implémentations de ces standards pour l'import/export et peut-être la gestion du modèle de données sous-jacent, voire de toutes nos métadonnées

Ces standards de métadonnées sont à mettre en relation avec les standards de références bibliographiques (RIS, Bibtex, Zotero…).

Ce rapprocher de ces standards peut :

  • mieux importer des ressources textuelles hébergées selon ces standards (data repositories de CLARIN ou OLAC)
  • aider à mieux intégrer les informations bibliographiques de textes comme métadonnées pour le travail dans TXM
  • aider à être en relation avec les OPACs de bibliothèques avec l'aide de standards d'interrogation (Z-qlqchose, etc. de la library of congress)

Par exemple : un certain nombre de thèses gèrent leur corpus de sources et de références avec Zotero. C'est une bonne pratique et ça aide forcément à la rédaction de la thèse (pour produire les références bibliographiques). Une référence pointe souvent sur le PDF de la ressource. Un corpus d'analyse peut alors facilement être construit à partir de champs Zotero.

On peut envisager un import bibliographique pur, de type Zotero (avec une API plutôt que des fichiers sources) pour à la fois importer des métadonnées ET des éléments textuels composant les sections d'un texte par référence bibliographique (de façon analogue à l'import d'un tableau CSV - qui pour l'instant prend la forme de la macro CSV2XML - où on précise quelles colonnes doivent servir de métadonnées et quelles colonnes doivent servir de corps de texte).

Actuellement, le modèle des métadonnées d'un texte est une liste plate de métadonnées nom/valeur à peine typée.

Le standard Dublin Core sert à décrire toutes les ressources numériques du web :

  • réduit : environ 15 champs max
  • augmente : on peut doubler tous les champs
  • spécialise : la sémantique des champs est bien décrite et la gestion doit en tenir compte

Le standard OLAC, qui s'appuie sur Dublin Core, spécialise encore plus pour les ressources linguistiques.

Le standard européen CMDI est le plus développé pour les ressources linguistiques (voir la liste des standard utilisés par CLARIN).

Le standard METS est développé dans le cadre des missions de conservation des bibliothèques.

Méthode

Lecture des métadonnées

TXM 0.7.9 et -

Les métadonnées sont lues principalement depuis le fichier metadata.csv. Certains modules peuvent aller chercher des métadonnées dans le header des textes (BFM: liste de xpath). Les pagers et compilers des modules d'import lisent les attributs des éléments text.

TXM 0.8.0

Le format CSV n'étant pas assez stable entre les logiciels tableurs. TXM 0.8.0 change sa source principale en privilégiant dans l'ordre les fichiers :

  1. metadata.ods :
    • si la feuille “metadata” est présente, elle sera utilisée
  2. metadata.xlsx
    • si la feuille “metadata” est présente, elle sera utilisée
  3. metadata.tsv :
    • utilise partiellement les réglages de lecture de la page de préférence d'Import : les séparateurs sont forcés à la tabulation et ''.
  4. metadata.csv :
    • utilise les réglages de lecture de la page de préférence d'Import
  5. les attributs des éléments text des fichiers XML source

AL (2018-11-15) : Comportement à définir s'il y a à la fois un fichier de métadonnées et des attributs de text. Proposition :

  1. si le nom de l'attribut ne correspond pas à une colonne de métadonnées, on l'utilise
  2. en cas de conflit, on utilise les métadonnées provenant du fichier metadata.

Écriture des métadonnées

TXM 0.8.0 et -

Les métadonnées des textes sont écrites dans la balise text des fichiers XML-TXM. C'est à cet endroit que les pagers et compilers des modules d'import vont chercher les informations

TXM +

Implémenter la spécification du format XML-TXM pour écrire les métadonnées des textes dans le teiHeader

État de la plateforme

Avancement dans l'élaboration de la solution

Solution

État de l'art

services d'exposition et de découverte de corpus et de textes

Il y a de nombreuses implémentations Java :

  • OAI-PMH
    • jOAI is a Java-based OAI software that supports the Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH), version 2.0 (message SLH 'Sujet: jOAI Overview, Date : Mon, 18 Jul 2011 12:03:02 +0200')
    • The OAICat Open Source Software (OSS) project is a Java Servlet web application providing a repository framework that conforms to the Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) v2.0
      D'après le mail 'Le 16/04/2013 17:53, Frédéric Glorieux a écrit : '
      > Pour TXM, il semble qu’il y a une demande d’exposition des textes en
      > OAI. Le protocole, même rustique, pose des problèmes dès qu’il faut le
      > déployer. Il m’est arrivé d’avoir écrit une implémentation, les deux
      > points difficiles :
      >   * garder la mémoire des suppressions
      >   * assurer les “resumption tokens”, c’est à dire une information
      > permettant de télécharger tout un catalogue par sections, en sachant
      > recommencer en cas de connexion interrompue.
      > Cette implémentation java est recommandée par la BNF
      > http://www.oclc.org/research/activities/oaicat.html
      > J'ai vu aussi de la demande pour des sitemaps Google, juste une liste
      > d’URI, mais derrière tu peux passer les descripteurs en <meta> HTML. On
      > peut aussi envoyer des notices par flux RSS, c’est intéressant pour
      > annoncer des nouveautés.


      Et aussi le mail de SLH 'Sujet : OAICat [OCLC - Activities], Date : Fri, 31 Dec 2010 12:54:16 +0100'

      http://www.oclc.org/research/activities/oaicat/default.htm
  • Dublin Core

Il y a des projets français sur ce sujet :

  • Weboai, OAI-PMH pour les humains

Il y a peut-être des travaux mettant en relation teiHeader et Dublin Core voire Unimarc.

Il y a peut-être des travaux mettant en relation Dublin Core et RIS, Bibtex ou Zotero.

Prototypes

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

Qui Quand Quoi

public/spec_metadonnees.txt · Dernière modification: 2018/11/15 14:41 par alexei.lavrentev@ens-lyon.fr