Outils pour utilisateurs

Outils du site


public:spec_exploitation_annotation:spec_tiger_ud

Spécification de conversion et d'exploitation des annotations UD avec TIGERSearch

Cette spécification est réalisée dans le cadre du projet ANR Profiterole.

Étant donné que

  • les annotations syntaxiques Profiterole sont sensées être réalisées en UD (format CONLL-U)
  • un export du corpus SRCMF au format CONLL-U existe déjà
  • seul le moteur de recherche TIGER est déjà intégré dans TXM

Nous testons la faisabilité de la conversion des annotations CONLL-U au format TIGER-XML et l'ergonomie de l'exploitation d'un corpus annoté ainsi avec TIGERSearch intégré à TXM.

Conversion SRCMF (RDF ou TIGER XML) vers CONLL-U

Cette conversion a été réalisée dans le cadre du projet Profiterole (Lattice). Un extrait du corpus SRCMF UD est publié sur universaldependecies.org (Old French)

Différences entre les modèles linguistiques SRCMF et UD

  • nommage des étiquettes (nœud terminaux et non terminaux)
    • en UD les étiquettes sujet et objet changent selon la nature : Obj / CComp, NSubj / CSubj
  • pas d'arcs secondaires 'duplicata' et 'coordination' dans TIGER-UD
    • dans UD le 2e élément coordonné et les suivants dépend du 1er avec cat=conj
  • pas de duplicata (doubles étiquettes sur les contractions suite à la conversion)
    • la spec UD prévoit une notation en 3 lignes (2 formes profondes + forme contractée), non implémentée dans la conversion
  • temps composés et verbes modaux
    • SRCMF l'auxiliaire est la tête
    • UD le verbe principal est la tête

Table de correspondance des étiquettes

Particularités par rapport au standard UD

Voir https://github.com/UniversalDependencies/UD_Old_French-SRCMF/blob/master/README.md :

We added some more specific relations (subtypes), either to specify a relation, or in the case of tokens entering a double dependency relation (typically : relative pronouns and contracted forms) :

  • acl:relcl : relative clause
  • advmod:obl : contracted advmod + obl (eg. sin = si + en)
  • aux:pass : passive auxiliary
  • case:det : contracted case + det (eg. del = de + le)
  • cc:nc : non coordinating conjunction (eg. et at the beginning of a sentence)
  • mark:advmod : mark and advmod (eg. coment at the beginning of a subordinate clause)
  • mark:obj : mark and obj (eg. relative pronoun que)
  • mark:obl : mark and obl (eg. relative pronoun cui / qui )
  • nsubj:advmod : contracted nsubj + advmod (eg. jon = jo + en)
  • nsubj:obj : contracted nsubj + obj (eg. quil = qui + le)
  • obj:advmod : contracted advmod + obj (eg. sis = si + les)
  • obj:advneg : contracted negation + obj (eg. nes = ne + les)
  • obj:obl : contracted obl + obj (eg. oul = ou + le)
  • obl:advmod : the double labelling accounts for the difficulty to decide between obl and advmod relations (en and i).

We added some features :

  • Morph=VFin : finite verb
  • Morph=VInf : non finite verb
  • Morph=VPar : verbal participle
  • Polarity=Int : interrogative
  • PronType=Ord : numeral

Améliorations nécessaires

  • Ajouter les identifiants des mots BFM dans la colonne MISC

Chaines de conversion

  • TIGERXML-SRCMF –> Arborator –> Règles OGRE –> post-correction ? –> CONNL-U (Aurélie C.)
  • CONNL-U –script Perl→ TIGERXML-UD (script d'Achim Stein adapté pqr AL)

Pour restaurer les identifiants de mots BFM, on peut utiliser l'une des stratégies suivantes :

  • Comparer et aligner les tokens des versions BFM et CONNL-U
    • diff ?
  • Re-faire la conversion SRCMF-UD
    • TIGERXML-SRCMF –XSLT–> TIGERXML-UD (–> CONNL-U ?)

Rétro-conversion CONLL-UD vers TIGER XML pour interrogation

Objectif

pouvoir interroger les annotations UD avec TIGERSearch.

Particularités

  • la propriété NT “dom” liste les catégories des nœuds non terminaux dominés, ce qui facilite les requêtes sur l'absence d'une certaine dépendance

Méthode

Script Perl créé par A. Stein pour tester les performances de Mate-Tools et adapté par AL

  • étiquettes UD au lieu de SRCMF
  • gestion des lignes commentées
  • ajout de l'identifiant du texte aux T

Conversion directe TIGERXML-SRCMF vers TIGERXML-UD

Piste envisagée pour récupérer les identifiants de mots BFM.

Méthode

Script XSLT, réimplémentation des règles proposées par AC.

public/spec_exploitation_annotation/spec_tiger_ud.txt · Dernière modification: 2019/10/29 16:57 par alexei.lavrentev@ens-lyon.fr