Outils pour utilisateurs

Outils du site


public:documentation_extensions:urs

Documentation de l'extension « Annotation URS (Unité-Relation-Schéma) »

Installation et Annotation interactive

Déjà documenté dans la section Annotation avec un modèle Unité-Relation-Schéma (URS) au fil du texte du manuel de TXM.

Commandes d'Annotation, Vérification, Exploitation, Export et macros Democrat

Les commandes de l'extension « Annotation URS (Unité-Relation-Schéma) » sont accessibles depuis le menu principal ou contextuel “URS > Outils” ou bien depuis le répertoire “URS” de la vue Macro en ce qui concerne les macros Democrat.

Paramètres généraux

Toutes les commandes URS utilisent des paramètres communs, renseignés en début de formulaire de paramètres.

La documentation de chaque commande précise, le cas échéant, les paramètres qui lui sont spécifiques.

Corpus, Sous-corpus & Partition

Toutes les commandes URS s'appliquent à une sélection de corpus, de sous-corpus ou de partition.

Si la sélection est multiple, les commandes produisent un résultat contrastif entre les objets sélectionnés (en tableau, par exemple UnitsIndex) ou bien itèrent sur les objets sélectionnés (par exemple UnitsList).

Dans le cas des partitions, les commandes travaillent sur les sous-corpus correspondant à leurs parties.

Sélection d'éléments URS

Les commandes utilisent des paramètres généraux de sélection d'éléments URS (unités et schémas dans la version 1.0) :

  • les éléments peuvent être sélectionnés par :
    • a) requête d'unités (section B)
    • b) requête de schéma (section A)
    • c) une combinaison de requête d'unités et de schéma (section A & B)
      • dans ce cas, la sélection d'unités se limite aux unités des schémas sélectionnés quand leurs paramètres de sélection sont présents (si la sélection de schéma ne retourne aucun schéma, aucune unité ne peut être sélectionnée)
      • quand la sélection de schémas n'est pas renseignée, la sélection d'unités se fait sur la totalité des unités du corpus
  • A) sélection de schémas :
    • par propriétés :
      • la sélection par champs (b) est alternative à la sélection par requête URS (a) (voir la section Requêtes URSQL qui suit)
      • a) par une requête URSQL de schéma de la forme TYPE@PROPRIETE=VALEUR
        • schema_ursql : requête de sélection de schéma (exemple 'CHAINE@REF=Jean.*')
      • b) par une combinaison de champs (si un des champs n'est pas renseigné alors il est ignoré) :
        • schema_type : sélection par type (exemple 'CHAINE')
        • schema_property_name : sélection par propriété (exemple 'REF')
        • schema_property_value : expression régulière de sélection de valeurs de propriété (par défaut '.*' pour sélectionner toutes les valeurs. Exemple 'Jean.*')
    • par longueur :
      • minimum_schema_size : longueur minimale en unités du corpus sélectionné des schémas à prendre en compte dans le calcul (utile notamment pour filtrer les singletons)
      • maximum_schema_size : longueur maximale en unités du corpus sélectionné des schémas à prendre en compte dans le calcul
  • B) sélection d'unités :
    • par propriétés :
      • par une requête URSQL d'unité de la forme TYPE@PROPRIETE=VALEUR
        • unit_ursql : requête de sélection d'unité (exemple 'MENTION@CATEGORIE=GN.*')
      • par une combinaison de champs (si un des champs n'est pas renseigné alors il est ignoré) :
        • unit_type : sélection par type (exemple 'MENTION')
        • unit_property_name : sélection par propriété (exemple 'CATEGORIE')
        • unit_property_value : expression régulière de sélection de la valeur de la propriété (par défaut '.*' pour sélectionner toutes les valeurs) (exemple 'GN.*')
    • par position dans les schémas ou dans les structures CQP
      • position_in_schema : position de l'unité, dans l'ordre du texte dans le schéma
        • exemples :
          • 1 : première unité du schéma
          • 2 : deuxième unité du schéma
          • etc.
          • 0 : toutes les unités du schéma (pas de sélection par position dans le schéma)
          • -1 : dernière unité du schéma
          • -2 : avant-dernière unité du schéma
          • etc.
      • cql_limit : expression CQL désignant les limites de structures CQP à utiliser dans le calcul. L'expression doit mobiliser une structure disponible dans le corpus et faire un 'expand to' pour obtenir autant d’intervalles que de structures souhaitées
        • par exemple :
          • <div> [] expand to div, pour utiliser toutes les limites de div
          • <div_type="chapitre"> [] expand to div, pour utiliser toutes les limites de div de type “chapitre”
          • <p> [] expand to p, pour utiliser toutes les limites de paragraphes
        • remarques :
          • la macro cqp/ListMatches peut être utile pour vérifier les positions des limites, les matches, d'un sous-corpus. Par exemple un sous-corpus créé en mode avancé avec la requête cql_limit. Le sous-corpus correspondant est constitué de la liste de toutes les séquences de mots correspondants à toutes les occurrences de la requête dans le corpus. Chaque occurrence est délimitée par la position de son premier mot (début) et par la position de son dernier mot (fin) dans le corpus. La position du premier mot d'un corpus est par convention 0 (et non 1).
          • la macro commands/StructureIndex peut être utile pour vérifier les positions des limites de structures
      • position_in_matches : position de l'unité, dans l'ordre du texte dans les matchs de la requête cql_limit
        • exemples :
          • 1 : première unité du match
          • 2 : deuxième unité du match
          • etc.
          • 0 : toutes les unités du match (pas de sélection par position dans la structure)
          • -1 : dernière unité du match
          • -2 : avant-dernière unité du match
          • etc.
    • strict_inclusion : tous les mots de l'unité doivent se situer au sein du sous-corpus ou de la structure définie par cql_limit pour que l'unité puisse être sélectionnée

Requêtes URSQL

La sélection sur critères d'éléments URS peut s'exprimer par le biais d'un certain nombre de champs dans un formulaire de paramètres ou bien par le biais d'une expression unique utilisant le langage de requête URSQL. Le mécanisme de sélection par requêtes URS, plus concis, remplace petit à petit la sélection par champs.

Une requête permet de sélectionner un élément par son type, par une propriété ou par une valeur de propriété.

C'est le contexte d'utilisation d'une requête URSQL qui détermine le type d'élément concerné par la sélection : Unité, Schéma ou Relation. Par exemple on trouve des champs de requêtes URSQL pour sélectionner des Unités ou pour sélectionner des Schémas.

Une requête est de la forme « TYPE@PROPRIÉTÉ=VALEUR_DE_PROPRIÉTÉ ».

Chacun des 3 critères, TYPE, PROPRIÉTÉ et VALEUR_DE_PROPRIÉTÉ (identifiants en majuscules), peut être exprimé sous la forme d'une expression régulière.

Si on souhaite ignorer un critère de sélection, on ne le renseigne pas.

Syntaxes possibles :

  • “” (champ vide ou chaîne vide) : aucun critère de sélection n'est appliqué, tous les éléments sont sélectionnés
  • TYPE : on sélectionne tous les éléments d'un certain TYPE
  • TYPE@PROPRIÉTÉ : on sélectionne tous les éléments d'un certain TYPE et ayant une certaine PROPRIÉTÉ
  • TYPE@PROPRIÉTÉ=VALEUR_DE_PROPRIÉTÉ : on sélectionne tous les éléments d'un certain TYPE et ayant une certaine PROPRIÉTÉ à une certaine VALEUR_DE_PROPRIÉTÉ
    • exemple, dans le corpus PERRAULTCONTES2 :
      Mention@REF=Anne
  • @PROPRIÉTÉ=VALEUR_DE_PROPRIÉTÉ : on sélectionne tous les éléments ayant une certaine PROPRIÉTÉ à une certaine VALEUR_DE_PROPRIÉTÉ (pour n'importe quel TYPE)
  • @PROPRIÉTÉ : on sélectionne tous les éléments ayant une certaine PROPRIÉTÉ (pour n'importe quel TYPE)
  • =VALEUR_DE_PROPRIÉTÉ : on sélectionne tous les éléments ayant une certaine VALEUR_DE_PROPRIÉTÉ (pour n'importe quel TYPE et n'importe quelle PROPRIÉTÉ)

Propriétés d'éléments à utiliser

Les commandes utilisent des paramètres généraux de désignation de propriétés d'éléments URS :

  • unit_property_display : nom de la propriété d'unité à utiliser et à afficher
    • si la propriété n'existe pas, certains calculs peuvent utiliser la propriété CQP correspondante des mots recouverts par l'unité (si elle existe) :
    • exemple :
      • 'frlemma'
  • schema_property_display : nom de la propriété de schéma à utiliser et à afficher

Autres

  • debug : active l'affichage de messages techniques

Commandes d'annotation

Ces commandes, accessibles depuis le menu principal ou contextuel “URS > Outils > Annotation”, sont complémentaires des outils d'annotation interactifs accessibles depuis l'interface utilisateur des éditions de textes. Elles permettent de :

  • créer des unités par lots à partir de la sélection de séquences de mots par requêtes CQL
  • projeter rapidement des annotations sur des lots d'unités sélectionnées par requêtes URSQL
  • supprimer des unités par lots

Concordance To Units

Créer des unités à partir des pivots d'une concordance :

  • la concordance est sélectionnée par son icone dans la vue Corpus ou par sa fenêtre de résultats activée (ayant le focus de la souris)
  • unit_type : type des unités à créer
  • move_start : décale la position du début de l'unité de la valeur indiquée. Exemple : “1” avance la position d'un seul mot ; “-1”, recule la position d'un mot (0 par défaut)
  • move_end : décale la position de la fin de l'unité de la valeur indiquée. Exemple : “1” avance la position d'un seul mot ; “-1”, recule la position d'un mot (0 par défaut)
  • create_only_if_new : créé une unité seulement si le pivot n'a pas déjà une annotation de type unit_type
  • property_name : propriété des unités à ajouter (optionnel)
  • property_value : valeur de la propriété à ajouter (optionnel)

Units Annotate

Affecter ou modifier une propriété des unités sélectionnées.

Paramètres de sélection d'éléments URS1) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql
    • par position
      • position_in_schema
      • cql_limit
      • position_in_matches
    • strict_inclusion

Paramètres spécifiques :

  • property_name : propriété à modifier
  • property_value : valeur à affecter

Units Delete

Supprimer des unités sélectionnées.

Remarque : attention si aucun critère de sélection n'est fourni (en schémas et en unités), toutes les unités sont supprimées.

Paramètres de sélection d'éléments URS2) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql
    • par position
      • position_in_schema
      • cql_limit
      • position_in_matches
    • strict_inclusion

Paramètres spécifiques :

  • pas de paramètres spécifiques

Reset All Annotations

Supprimer toutes les annotations : unités, relations et schémas, du corpus :

  • CONFIRMATION : cocher pour confirmer la suppression

Commandes de vérification de la cohérence des annotations

Il est fortement conseillé d'appliquer systématiquement ces commandes, accessibles depuis le menu principal ou contextuel “URS > Outils > Vérification”, avant d'utiliser des commandes d'exploitation. En effet, la qualité des calculs de ces dernières est très sensible aux manques et aux redondances d'annotations d'un corpus.

Check Annotation Structure Values

Vérifier que toutes les valeurs d'une propriété définie dans la structure d'annotation sont effectivement utilisées par les annotations :

  • unit_type : type d'unité à vérifier
  • unit_property : propriété à vérifier
  • pruneUnusedValues : supprimer les valeurs non-utilisées de la structure d'annotation

Check Duplicates In Schema

Lister pour chaque schéma les unités ayant les mêmes propriétés aux mêmes valeurs.

Commandes d'exploitation (lister, compter, visualiser...)

Commandes accessibles depuis le menu principal ou contextuel “URS > Outils > Exploitation”.

Units Summary

Dénombrer les unités sélectionnées ainsi que les valeurs de leurs propriétés.

Paramètres de sélection d'éléments URS3) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql
    • par position
      • position_in_schema
      • cql_limit
      • position_in_matches
    • strict_inclusion

Paramètres spécifiques :

  • pas de paramètres spécifiques

Units Index

Index hiérarchique d'une propriété des unités sélectionnées.

Paramètres de sélection d'éléments URS4) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql
    • par position
      • position_in_schema
      • cql_limit
      • position_in_matches
    • strict_inclusion

Paramètres spécifiques :

  • unit_property_display : propriété d'unité à utiliser pour le calcul, par exemple 'CATEGORIE'
  • word_property_display : propriété de mot à utiliser pour le calcul, par exemple 'frpos' (si ce paramètre est renseigné, le paramètre unit_property_display est ignoré)
  • output_showlegend : afficher la légende du diagramme à barres
  • output_fmin : seuils en fréquence des valeurs à afficher
  • output_histogram : afficher le diagramme à barres
  • output_lexicaltable : créer une table lexicale à partir des données de l'index

Units List

Afficher la liste des unités sélectionnées avec différents modes d'affichage.

Paramètres de sélection d'éléments URS5) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql
    • par position
      • position_in_schema
      • cql_limit
      • position_in_matches
    • strict_inclusion

Paramètres spécifiques :

  • output_mode : mode d'affichage des résultats
    • FORMATED (par défaut) : affiche les informations des unités sous la forme : #n°, adresse du premier mot - adresse du dernier mot, formes de surface, propriétés
    • TABULATED : affiche les informations des unités séparées par des tabulations : #n°, adresse premier mot - adresse dernier mot, formes de surface, propriétés
    • COUNT : affiche seulement le décompte d'unités
    • CQL : affiche une requête CQL sélectionnant toutes les séquences de mots des unités
    • Concordance : crée la concordance des séquences de mots des unités

Units Interdistance

Afficher les moyennes, médianes, quartiles et histogrammes des distances et des cadences entres les unités sélectionnées.

La distance est calculée en mots : depuis le dernier mot d'une unité jusqu'au premier mot de l'unité suivante dans le corpus.

Paramètres de sélection d'éléments URS6) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql

Paramètres spécifiques :

  • pas de paramètres spécifiques

Units Referential Density

Calculer le rapport entre le nombre d'unités d'un certain type et le nombre de mots du corpus (en %).

Paramètres de sélection d'éléments URS7) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql
    • par position
      • position_in_schema
      • cql_limit
      • position_in_matches
    • strict_inclusion

Paramètres spécifiques :

  • pas de paramètres spécifiques

Units Referential Stability

Calculer le rapport entre le nombre d'unités sélectionnées et le nombre de formes différentes utilisées par ces unités (taille du vocabulaire des unités) dans le corpus.

Paramètres de sélection d'éléments URS8) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql

Paramètres spécifiques :

  • word_property : propriété de mots CQP à utiliser, Exemple 'word' pour la forme graphique des mots
  • show_values : afficher les valeurs de la propriété de mots word_property (peut être assez long)

Schemas Summary

Afficher le nombre de schémas sélectionnés, la longueur moyenne et médiane (en unités) des schémas sélectionnés, ainsi que le nombre de valeurs différentes de leurs propriétés.

Paramètres de sélection d'éléments URS9) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size

Paramètres spécifiques :

  • pas de paramètres spécifiques

Schemas Coverage

Créé et règle la propriété “LOCALISATION” dans les schémas sélectionnés pour y enregistrer la référence de la plus petite structure CQP contenant le schéma.

La référence est de la forme “structure_propriété valeur” (par exemple “p_n 1”). Elle contient “N/A” si le schéma ne passe pas le paramètre minimum_schema_size

Paramètres de sélection d'éléments URS10) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size

Paramètres de sélection d'éléments à afficher :

  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql
    • par inclusion
      • strict_inclusion les unités sont strictement recouvertes par les structures du corpus

Paramètres spécifiques :

  • structure_properties : liste des propriétés de structure à interrogées. Les propriétés sont ordonnées par ordre de taille de structure. Par exemple, “div_n,p_n”. si aucune des structures n'englobe le schéma, on enregistre “text_id” dans la propriété LOCALISATION.

Schemas Index

Index hiérarchique d'une propriété des schémas sélectionnés.

Paramètres de sélection d'éléments URS11) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • par sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql
    • strict_inclusion

Paramètres spécifiques :

  • schema_property_display : propriété de schéma à utiliser pour le calcul, par exemple 'CATEGORIE'
  • output_fmin : seuils en fréquence des valeurs à afficher

Schemas List

Afficher les schémas sélectionnés avec leur nombre, leurs propriétés et la liste de leurs unités.

Paramètres de sélection d'éléments URS12) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size

Paramètres de sélection d'éléments à afficher :

  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql

Paramètres spécifiques :

  • word_property : propriété de mots CQP à afficher
  • separator : séparateur entre les valeurs de la propriété
  • buildCQL : afficher la requête CQL de recherche des mots de chaque schéma

Schema Lengths

Afficher la longueur moyenne (en unités) des schémas sélectionnés et l'index hiérarchique des longueurs.

Paramètres de sélection d'éléments URS13) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql

Paramètres spécifiques :

  • schema_property_display : propriété de schéma à afficher
  • sort_column : colonne à utiliser pour le tri : “freq” (défaut) ou “len” (ordre inverse)
  • max_lines : nombre de lignes à afficher dans le tableau

Schemas Progression

Afficher le graphique de progression des schémas en mettant en valeur les unités sélectionnées.

La légende est triée selon l'ordre d'apparition des schémas au fil du corpus (ordre croissant des positions de la première unité du schéma).

Paramètres de sélection d'éléments URS14) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql
    • par position
      • position_in_schema
      • cql_limit
      • position_in_matches
    • strict_inclusion

Paramètres spécifiques :

  • schema_property_display : propriété de schéma à afficher dans la légende
  • struct_name : nom de la structure à afficher sur le graphique de progression
  • struct_prop : nom de la propriété de structure à afficher sur le graphique de progression
  • line_width : épaisseur des lignes de la progression
  • cummulative : affiche la courbe de type cummulative, sinon la densité
  • bande_width : largeur de bande densité de la progression (densité)
  • show_lines : affiche les lignes de la courbes (cummulative)
  • show_title : affiche ou pas le titre de la progression
  • show_legend : affiche ou pas la légende de la progression

Schema Ratio

Affiche pour chaque schéma sélectionné, le ratio “unités sélectionnée” sur “unités de marge”

Paramètres de sélection d'éléments URS15) :

  • sélection de schémas
    • par propriétés
      • par requête
        • schema_ursql
    • par longueur
      • minimum_schema_size
      • maximum_schema_size
  • sélection d'unités
    • par propriétés
      • par requête
        • unit_ursql
  • sélection d'unités de marge
    • par propriétés
      • par requête
        • units_margin_ursql

Paramètres spécifiques :

  • schema_property_display : propriété de schéma à afficher
  • sort_column : colonne à utiliser pour le tri : “score” (défaut, ordre inverse) ou “name” (la propriété de schéma à afficher)
  • max_lines : nombre de lignes à afficher dans le tableau

Commandes d'export

Commandes accessibles depuis le menu principal ou contextuel “URS > Outils > Export”.

Export Corpus As

Exporter un corpus TXM au format binaire “*.txm” sous un nom différent. Le corpus peut alors être chargé à côté du premier.

Paramètre :

  • new_name : nouveau nom du corpus, example (MONCORPUS)

Export Units To Glozz

Exporter des unités URS d'un certain type au format XML Glozz.

Paramètres :

  • unit_type : type des unités à exporter
  • filename : chemin du fichier XML de sortie

Macros 'Democrat'

Ces macros sont accessibles depuis la vue Macro, dans le répertoire “URS” et ses sous-répertoires. Elles ont été développées dans le cadre de la procédure d'annotation du partenaire Lyon pour le projet ANR Democrat et sa structure d'annotation (chaînes de co-références de mentions). En tant que macros, leur algorithme est adaptable directement par l'utilisateur.

La majorité de ces macros a été développée et debuggée par Matthieu Quignard et Alexei Lavrentiev.

On utilise ces macros dans les différentes phases du workflow d'annotation :

  • Phase 1 (création des mentions)
    • annotation interactive : délimitation et attribution de référent → MENTION@REF
    • annotation par script : corrige les limites de mentions dans le complément du nom avec la macro RetoucheComplementDuNom
    • annotation par script : création de la propriété CATEGORIE avec Frpos2Cattex ou Fropos2Cattex (médiéval) → CATEGORIE (dont GN.CHECK, ERREUR, PRO.CHECK)
    • vérification interactive : vérifier que la CATEGORIE est correcte et préciser les valeurs “.CHECK”
    • vérification interactive : finaliser les valeurs “.CHECK”
    • annotation par script : vérification de différents types de cohérences avec Verifications
    • vérification interactive : vérifier les MENTION@CHECK!=DONE
  • Phase 2 (liste des identifiants de référents fixe)
    • annotation par script : numéroter les référents MENTION@REF=“SI” avec Si2Singleton
    • annotation par script : créer des schémas de type CHAINE avec la macro CreationChaines → CHAINE(@REF, @GENRE, @NOMBRE, @NB MAILLONS, @TYPE REFERENT)
    • annotation par script : ajouter la propriété DEFINITUDE aux MENTION avec la macro AjoutDefinitude → MENTION@DEFINITUDE
  • Phase 3 (chaque unité est dans la bonne CHAINE)
    • annotation interactive d'unités (vérification)
    • annotation interactive de schémas (vérification et augmentation) [à faire] (slide 34)
  • Phase 4 (toutes les CHAINE sont annotées)
    • annotation par script (augmenter) unités [à faire] (slide 37)
    • annotation par script (augmenter) schémas [à faire] (slide 37)
  • Phase 5 (unités et schémas fixes)
    • annotation interactive (créer+augmenter) relations [à faire] (slide 39)
  • Phase 6 (relations d'anaphore fixes)
    • annotation par script (créer+augmenter) relations (macros CreationAnaphores, [à valider]

Documentation des macros par catégories :

Vérifier la cohérence des annotations

Verifications

Cette macro se lance après l'annotation des références et des catégories des mentions. On a besoin de catégories pour repérer les erreurs de type 1, 3, 4 et 7.

Vérifie les erreurs les plus fréquentes :

  1. repère les mentions sans catégorie : CHECK > CAT
  2. repère les mentions sans référent : CHECK > REF
  3. supprime les ponctuations en début et en fin de mention : CHECK > BORNES
  4. supprime les prépositions autres que 'de' en début de mention : CHECK > BORNES
  5. supprime automatiquement toutes les mentions vides = sans aucun mot = de longueur 0
  6. détecte les mentions qui ont exactement les mêmes bornes : CHECK > DOUBLON
  7. (option) détecte les pronoms hors mention : CHECK > NEW

Paramètres :

  • unit_type : type des unités à vérifier (MENTION par défaut)
  • pos_property_name : nom de la propriété catégorie à vérifier (CATEGORIE)
  • cat_name : nom de la propriété référent à vérifier (REF)
  • ref_name : nom du champ qui porte l'étiquette morphosyntaxique (type, pos, frpos, fropos…)
  • checkPronouns : cocher “checkPronouns” si on veut rajouter les éventuels pronoms oubliés (= hors mention)

Le script ajoute une propriété CHECK en cas d'erreur. Cette propriété indique quel type d'erreur a été rencontré. NB : il peut y avoir plusieurs erreurs pour une même mention.

Corriger ou mettre à jour les annotations

PROPERanaphoriques

Recatégoriser la valeur 'PRO.PER' (pronom personnel) de la propriété CATEGORIE en distinguant les anaphoriques (PRO.PERA) et les déictiques (PRO.PERD).

Paramètres :

  • unit_type : type d'unité à corriger (exemple 'MENTION')
  • pos_property_name : propriété de mot à utiliser (exemple 'frlemma')

RetoucheComplementDuNom

Macro pour corriger une erreur d'annotation : retirer le “de” ou le “d'” (forme élidée) du complément du nom.

Paramètres :

  • unit_type : type d'unité à corriger (exemple 'MENTION')
  • category_name : propriété d'unité à utiliser (exemple 'CATEGORIE')

Algorithme :

POUR CHAQUE MENTION dont le premier mot est "de" (en minuscules)
   SI     il existe une autre MENTION dans laquelle celle-ci est totalement incluse
   ALORS  incrémenter d'un mot la frontière gauche de la mention
   Ajouter la catégorie CDN.CHECK pour qu'on puisse vérifier facilement le job.

Cette macro ne s'appuie pas sur des catégories morphosyntaxiques. On peut donc la faire tourner avant les macros frpos2cattex ou fropos2cattex.

Si2Singleton

Met à jour la propriété REF des MENTION dont REF vaut “SI” en les numérotant de “SI_n” commençant à 1.

CreationChaine

Paramètres :

  • unit_type : type d'unité à corriger (exemple 'MENTION')
  • ref_property_name : propriété d'unité à corriger (exemple 'REF')

SUJ-PARTINF

Recatégorise les mentions étiquetées en SUJ.ZERO pour distinguer les cas des verbes conjugués (qui restent en SUJ.ZERO) des verbes à l'infinitif ou au participe passé/présent qui, eux, vont passer sous la catégorie SUJ.PARTINF.

Cette macro est réversible. Il suffit d'invoquer la macro SearchRemplaceInFile ou SearchRemplaceInDir et substituer CATEGORIE=SUJ.PARTINF en CATEGORIE=SUJ.ZERO.

NB : fonctionne avec le tagset CATTEX pour l'ancien français et avec le tagset TreeTagger pour le français contemporain :

CATTEXTreeTagger
InfinitifVERinfVER:infi
Participe PasséVERppaVER:pper
Participe PrésentVERppeVER:ppre

Paramètres :

  • unit_type : type d'unité à corriger (exemple 'MENTION')
  • property_name : propriété d'unité à corriger (exemple 'CATEGORIE')
  • suj_zero_cat : valeur de la CATEGORIE pour les sujets zéros (exemple 'SUJ.ZERO')
  • pos_property_name : propriété de mot à utiliser pour la morphosyntaxe (exemple 'frpos')

TrimPropertyValues

Élague les caractères espaces et sauts de ligne se trouvant dans les valeurs de propriétés d'éléments URS. Voir les paramètres pour choisir le type d'élagage à apporter.

Cette macro peut être utile après un import d'annotations à partir d'un fichier XML-TEI URS manipulé indépendamment de TXM.

Paramètres :

  • element : type d'éléments URS à corriger : Unité, Relation ou Schema
  • ursql : éventuellement sélectionner les éléments à corriger
  • update_value : remplacer effectivement les valeurs, sinon seules les différences (valeur non élaguée / valeur élaguée) sont affichées
  • trim_spaces : supprimer les espaces situés en début et en fin de valeur
  • prune_spaces : remplacer les répétitions d'espaces par un seul
  • prune_newlines : supprimer les sauts de ligne

Annoter

Unités

Frpos2Categorie

Calculer la valeur de la propriété CATEGORIE des unités à partir des propriétés 'word' (forme graphique) et <pos_property_name> (morpho-syntaxe) des mots qu'elle contient. Le calcul est réalisé pour le français moderne.

Paramètres :

  • unit_type : type d'unité à annoter, exemple (MENTION)
  • pos_property_name : propriété de mot pour la morpho-syntaxe, exemple (frpos)
  • reset : mettre à jour la propriété CATEGORIE même si elle a déjà une valeur
Fropos2Categorie

Calculer la valeur de la propriété CATEGORIE des unités à partir de la propriété <pos_property_name> (morpho-syntaxe) des mots qu'elle contient. Le calcul est réalisé pour l'ancien français.

Paramètres :

  • unit_type : type d'unité à annoter, exemple (MENTION)
  • pos_property_name : propriété de mot pour la morpho-syntaxe, exemple (pos)
  • reset : mettre à jour la propriété CATEGORIE même si elle a déjà une valeur
AjoutDefinitude

Calculer la valeur de la propriété DEFINITUDE, de valeurs ‘DEFINI’, ‘INDEFINI’, ‘DEMONSTRATIF’, ‘AMBIGU’ ou ‘NONE’, des unités à partir des propriétés 'word' (forme graphique) des mots qu'elle contient. Le calcul est réalisé pour le français moderne.

Paramètres :

  • unit_type : type d'unité à annoter, exemple (MENTION)
  • reset : mettre à jour la propriété DEFINITUDE même si elle a déjà une valeur
Accessibilite

Calculer la valeur de la propriété Accessibilité (accessibilité du référent) des unités à partir de la valeur de leur propriété CATEGORIE.

Paramètres :

  • unit_type : type d'unité à annoter, exemple (MENTION)
LongueurDesMentions

Calculer la valeur de la propriété LONGUEUR des unités en calculant leur longueur en mots.

Paramètres :

  • unit_type : type d'unité à annoter, exemple (MENTION)
  • pos_property_name : propriété de mot à utiliser, exemple (word)
  • reset : mettre à jour la propriété LONGUEUR même si elle a déjà une valeur
PremierMaillon

Ajouter la propriété NEW à la valeur ‘YES’ aux unités d’un certain type si la valeur de leur propriété REF est rencontrée pour la première fois et ‘NO’ sinon.16)

Paramètres :

  • unit_type : type d'unité à annoter, exemple (MENTION)
  • reset : mettre à jour la propriété NEW même si elle a déjà une valeur

Schémas

CreationChaines

Créer des schémas de type 'CHAINE' contenant les unités ayant une même valeur de propriété REF.

Paramètres :

  • unit_type : type d'unités à regrouper, exemple (MENTION)
  • ref_property : propriété d'unité à utiliser pour le référent, exemple (REF)

Relations

CreationAnaphores

Créer des relations de type 'ANAPHORE' à partir des unités 'MENTION' de schémas 'CHAINE'.

Paramètres :

  • unit_type : type d'unités à utiliser, exemple (MENTION)
  • schema_type : type de schémas à utiliser, exemple (CHAINE)

Créer des configurations de corpus

SubCorpus

Crée un sous-corpus du corpus sélectionné dans la vue Corpus à partir d'une requête CQL.
Équivalent à la création de sous-corpus en mode avancé.

Paramètres :

  • name : nom du sous-corpus à créer
  • query : requête CQL de création du sous-corpus
BuildSections

Exemple de macro appelant directement la macro SubCorpus plusieurs fois pour créer des sous-corpus correspondant à des chapitres et à certains paragraphes.

Paramètres : aucun. La macro utilise directement le corpus nommé “DIDEROTESSAIS” (le nom du corpus est donc à adapter pour que la macro fonctionne sur un autre corpus).

Exporter

BuildDemocratCorpusVersion1

Préparer le corpus Democrat pour livraison, en mettant à jour les entêtes TEI avec des statistiques et des informations issues d'un tableau de métadonnées fourni en paramètre.

Paramètres :

  • inputDirectory : répertoire source contenant les fichiers *.txm, teiHeader.xml, metadata.tsv et metadata.properties de départ
    • *.txm : les corpus annotés URS (un texte par corpus)
    • teiHeader.xml : le patron générique d'entête TEI
    • metadata.tsv : les métadonnées de textes
    • metadata.properties : la table de correspondance entre les métadonnées et leur position dans l'entête TEI
  • outputDirectory : répertoire où sera déposé le résultat
  • debug : afficher les informations de mise au point
1) , 2) , 3) , 4) , 5) , 6) , 7) , 8) , 9) , 10) , 11) , 12) , 13) , 14) , 15)
Voir la section Sélection d'éléments URS pour leur description
16)
ATTENTION : Le champ “NEW” est ajouté dans la structure, mais il n'est pas affiché dans la vue. On ne peut donc pas le corriger… Pour ce faire, il faut d'abord enregistrer les annotations puis relancer TXM. La vue sera alors rafraîchie.
public/documentation_extensions/urs.txt · Dernière modification: 2019/07/03 16:16 par slh@ens-lyon.fr