Spécifications du format XML-TEI URS

URS = Unite Relation Schema, au sens des logiciels Glozz et Analec.

Ce format sert à sérialiser les annotations de ce type en XML en suivant les recommandations de la TEI.

Solutions

V0 - Analec 1.5

Utilise les éléments :

  • back
    • spanGrp@type=AnalecUnite+@n=TypeUnite / span
      • linkGrp@type=AnalecRelation|AnalecSchema+@n=TypeRelation|TypeSchema / link

V1 - article ISA 2017

"Interoperable annotation of (co)references in the Democrat project", Thirteenth Joint ISO-ACL Workshop on Interoperable Semantic Annotation, Sep 2017, Montpellier

Utilise les éléments :

  • standOff
    • div@type=coréférence
      • spanGrp@type=unit / span
      • linkGrp@type=relation|schema / link

V2 - évolution pour l'implémentation dans l'extension Analec de TXM

annotations et textes

On croise avec le modèle XML-TEI TXM et le modèle d'annotation proposé par https://github.com/laurentromary/stdfSpec.

Utilise les éléments :

  • standOff
    • soHeader / title
    • annotations@type=coréférence
      • annotationGrp avec @type=Unit|Relation|Schema et @subtype=TypeUnite|TypeRelation|TypeSchema
        • span (unités) OU link (relations et schémas) avec @xml:id, @ana, @from, @to et @target
      • div@type=unit-fs
        • fs / f
      • div@type=relation-fs
        • fs / f
      • div@type=schema-fs
        • fs / f

spanGrp/span et joinGrp/join sont actuellement utilisés pour les annotations d'Analec → ils sont remplacés par annotationGrp/span|link

linkGrp/link sont utilisés pour les annotations TAL de TXM dans le format XML-TXM (en attendant de migrer vers le 'standOff'). Exemple : TreeTagger.

Les annotations sont stockées dans un fichier indépendant du corps du texte1). Voir la spécification de la commande d'export XML-TEI URS section implémentation TXM.

Les annotations pointent vers des mots du format XML-TEI TXM.

Les pointeurs d'annotations utilisent le mécanisme de prefixDef de la TEI2). Voir des exemples de prefixDef dans commande d'export XML-TEI URS et XML-TEI TXM standoff.

structure d'annotation

En attendant de définir un format XML-TEI, on utilise un fichier ”.aam” au format XML de sérialisation du logiciel Glozz.

1) pour une V1
2) utile quand on permettra de stocker les annotations au sein du fichier texte - les pointeurs seront les mêmes que les annotations soient dans un fichier indépendant ou pas
public/xml_tei_urs.txt · Dernière modification: 2017/11/13 10:09 par matthieu.decorde@ens-lyon.fr