Outils pour utilisateurs

Outils du site


Panneau latéral

public:xml_tei_urs

Ceci est une ancienne révision du document !


Spécifications du format XML-TEI URS

URS = Unite Relation Schema, au sens des logiciels Glozz et Analec.

Ce format sert à sérialiser les annotations de ce type.

Solutions

V1 - article ISA 2017

V2 - évolutions pour l'implémentation dans TXM de l'extension Analec

On se base sur le modèle d'annotation proposé par https://github.com/laurentromary/stdfSpec utilisant les éléments :

  • stdf (à la place de 'standOff')
  • soHeader/title
  • annotations (à la place de 'div@type=coréférence')
  • annotationGrp avec @type et @subtype (à la place respectivement de spanGrp@type et spanGrp@n)
  • span avec @xml:id, @ana, @from, @to et @target
spanGrp/span et joinGrp/join sont actuellement utilisés pour les annotations d'Analec → ils sont remplacés par annotationGrp/span
linkGrp/link restent pour l'instant utilisés pour les annotations TAL de TXM (en attendant de migrer vers annotationGrp/span). Exemple : TreeTagger.

Les annotations sont stockées dans un fichier indépendant du corps du texte. Voir la spécification de la commande d'export XML-TEI URS section implémentation TXM.

Les annotations pointent vers des mots du format XML-TEI TXM.

Les pointeurs d'annotations utilisent le mécanisme de préfixe de la TEI : prefixDef. Voir l'exemple de Spécifications de la commande d'export XML-TEI URS de l'extension Analec.

public/xml_tei_urs.1508227611.txt.gz · Dernière modification: 2017/10/17 10:06 par slh@ens-lyon.fr