Outils pour utilisateurs

Outils du site


public:xml_tei_urs

Spécifications du format XML-TEI URS

URS = Unite Relation Schema, au sens des logiciels Glozz et Analec.

Ce format sert à sérialiser les annotations de ce type en XML en suivant les recommandations de la TEI.

Solutions

V0 - Analec 1.5

Utilise les éléments :

  • back
    • spanGrp@type=AnalecUnite+@n=TypeUnite / span
      • linkGrp@type=AnalecRelation|AnalecSchema+@n=TypeRelation|TypeSchema / link

V1 - article ISA 2017

"Interoperable annotation of (co)references in the Democrat project", Thirteenth Joint ISO-ACL Workshop on Interoperable Semantic Annotation, Sep 2017, Montpellier

Utilise les éléments :

  • standOff
    • div@type=coréférence
      • spanGrp@type=unit / span
      • linkGrp@type=relation|schema / link

V2 - évolution pour l'implémentation dans l'extension Analec de TXM

annotations et textes

On croise avec le modèle XML-TEI TXM et le modèle d'annotation proposé par https://github.com/laurentromary/stdfSpec.

Utilise les éléments :

  • standOff
    • soHeader
      • titleStmt / title
      • revisionDesc / change who=“#clement” when=“2019-05-16”
        Created with TXM 0.8.0.2082 and URS extension <version> with 'XML-TEI-URS Export….' export command on ADEN corpus
    • annotations@type=coréférence
      • annotationGrp avec @type=Unit|Relation|Schema et @subtype=TypeUnite|TypeRelation|TypeSchema
        • span (unités) OU link (relations et schémas) avec @xml:id, @ana, @from, @to et @target
      • div@type=unit-fs
        • fs / f
      • div@type=relation-fs
        • fs / f
      • div@type=schema-fs
        • fs / f
spanGrp/span et joinGrp/join sont actuellement utilisés pour les annotations d'Analec → ils sont remplacés par annotationGrp/span|link
linkGrp/link sont utilisés pour les annotations TAL de TXM dans le format XML-TXM (en attendant de migrer vers le 'standOff'). Exemple : TreeTagger.

Les annotations sont stockées dans un fichier indépendant du corps du texte pour une V1, et au sein du même fichier pour une V2 (nouvelle option d'export). Voir la spécification de la commande d'export XML-TEI URS section implémentation TXM.

Pointeurs vers les mots

Les annotations pointent vers des mots du format XML-TEI TXM.

Pour la version où les annotations sont dans un fichier séparé du fichier des mots, les pointeurs d'annotations utilisent le mécanisme de prefixDef de la TEI1). Voir des exemples de prefixDef dans commande d'export XML-TEI URS et XML-TEI TXM standoff.

Pour la version où les annotations sont dans le même fichier que celui contenant les mots (et le texte), les annotations pointent directement sur les éléments <w>.

Structure d'annotation

En attendant de définir un format XML-TEI, on utilise un fichier “.aam” au format XML de sérialisation du logiciel Glozz.

V3 - ...

  • Exporter la structure d'annotation au format XML-TEI URS au lieu de Glozz (aam).
  • Lors de l'import si aucune structure n'est renseignée → inférer la structure en lisant les annotations
1)
utile quand on permettra de stocker les annotations au sein du fichier texte - les pointeurs seront les mêmes que les annotations soient dans un fichier indépendant ou pas
public/xml_tei_urs.txt · Dernière modification : 04/07/2019 13:16 de slh@ens-lyon.fr