Outils pour utilisateurs

Outils du site


public:xml_tei_urs

Ceci est une ancienne révision du document !


Spécifications du format XML-TEI URS

URS = Unite Relation Schema, au sens des logiciels Glozz et Analec.

Ce format sert à sérialiser les annotations de ce type en XML en suivant les recommandations de la TEI.

Solutions

V1 - article ISA 2017

V2 - évolutions pour l'implémentation dans TXM de l'extension Analec

On se base sur le modèle d'annotation proposé par https://github.com/laurentromary/stdfSpec utilisant les éléments :

  • stdf (à la place de 'standOff')
  • soHeader/title
  • annotations (à la place de 'div@type=coréférence')
  • annotationGrp avec @type et @subtype (à la place respectivement de spanGrp@type et spanGrp@n)
  • span avec @xml:id, @ana, @from, @to et @target
spanGrp/span et joinGrp/join sont actuellement utilisés pour les annotations d'Analec → ils sont remplacés par annotationGrp/span
linkGrp/link restent pour l'instant utilisés pour les annotations TAL de TXM (en attendant de migrer vers annotationGrp/span). Exemple : TreeTagger.

Les annotations sont stockées dans un fichier indépendant du corps du texte1). Voir la spécification de la commande d'export XML-TEI URS section implémentation TXM.

Les annotations pointent vers des mots du format XML-TEI TXM.

Les pointeurs d'annotations utilisent le mécanisme de prefixDef de la TEI2). Voir l'exemple de Spécifications de la commande d'export XML-TEI URS de l'extension Analec.

1)
pour une V1
2)
utile quand on permettra de stocker les annotations au sein du fichier texte - les pointeurs seront les mêmes que les annotations soient dans un fichier indépendant ou pas
public/xml_tei_urs.1508228513.txt.gz · Dernière modification: 2017/10/17 10:21 par slh@ens-lyon.fr