Manuel d'utilisation de l'extension Analec

L'annotation Analec au sein de TXM se fait par le biais d'une extension permettant d'annoter les textes d'un corpus avec un modèle d'annotation URS (Unités - Relations - Schémas) de type Glozz/Analec et de réaliser diverses exploitations de ces annotations.

La version actuelle de l'extension permet d'annoter interactivement les unités au sein des éditions de texte d'un corpus de TXM, ainsi que d'enrichir l'annotation, de vérifier sa cohérence, de procéder à des extractions pour affichage et décomptes.

L'interface d'annotation des unités se base sur celle du logiciel Analec, donc nous vous invitons à consulter la documentation d'Analec pour apprendre à utiliser la barre d'outils d'annotation des unités (en particulier la section “Annoter des unités” page 15).

Cette extension est en développement continu. Nous vous invitons à consulter régulièrement la page de suivi du chantier de développement de l'extension Analec pour vous tenir informé des évolutions.

Installation

Si nécessaire installer TXM, puis l'extension Analec de TXM :

  1. installer TXM 0.7.9 en suivant les instructions de la page http://textometrie.ens-lyon.fr/files/software/TXM/0.7.9
  2. lancer une première fois TXM pour finaliser l'installation. Puis fermer et re-lancer TXM.
  3. installer l'extension Analec en appelant la commande “Fichier > Ajouter une extension”
    • choisir l'extension Analec
    • accepter la licence
    • lancer l'installation
    • redémarrer TXM

Compatibilité et Prérequis

  • au 8 mars 2017 sous Windows 7 : pour que l'extension Analec puisse mettre en évidence les unités annotées dans l'édition vous devez disposer d'une version d'Internet Explorer plus récente que celle livrée avec le système d'exploitation pour que ça fonctionne (dans ce cas il faut mettre à jour votre Internet Explorer vers une version plus récente) [voir ticket #2017]

Préparation d'un corpus pour l'annotation

A. Corpus prêts à l'annotation dans TXM pour le projet DEMOCRAT

Pour vous aider à tester l'annotation Analec dans TXM rapidement, voici un exemple de corpus DEMOCRAT à charger directement dans TXM :

  1. depuis TXM charger le corpus PRINCESSE-modèle-annotation-democrat-sans-annotations.txm avec la commande du menu “Fichier > Charger”
    –> un nouveau corpus PRINCESSEBRUTSIMPLIFIETEXTE apparaît dans la vue Corpus
  2. voir la section “Créer des annotations…” suivante pour procéder à l'annotation

B. Corpus déjà annotés dans Analec

Il y a deux façons d'importer dans TXM un corpus déjà annoté dans Analec :

  • à partir d'un fichier XML-TEI Analec exporté depuis Analec ;
  • à partir des 3 fichiers .aa, .aam et .ac exportés depuis Analec.

B.1 Import XML-TEI Analec : à partir d'un fichier .xml

  1. lancer la commande “Fichier > Importer > XML-TEI Analec” en lui fournissant l'argument suivant :
    • xmlFile : le fichier XML-TEI Analec exporté depuis Analec (eg Le_Capitaine_Fracasse_or.xml)
      → un nouveau corpus LECAPITAINEFRACASSEOR est ajouté à la vue Corpus (il a été importé par une version interne du module TXT+CSV de TXM et contient les annotations Analec et leur modèle d'annotation)

Exemple de fichier XML-TEI Analec du projet DEMOCRAT : Le_Capitaine_Fracasse_or.xml

B.2 Import Glozz : à partir des trois fichiers .aa, .aam et .ac

  1. lancer la commande “Fichier > Importer > Glozz” en lui fournissant les arguments suivants :
    • glozzDirectory : un répertoire contenant 2 fichiers :
      • votre fichier corpus Glozz, d'extension '.ac' (eg Cleves-brut-simplifie-texte.ac)
      • votre fichier d'annotations, d'extension '.aa' (eg Cleves-brut-simplifie-annotations.aa)
    • aamfile : le fichier de définition du modèle d'annotations Glozz, d'extension '.aam' (eg Cleves-brut-simplifie-structure-annotation.aam)
      → un nouveau corpus CLEVESBRUTSIMPLIFIETEXTE est ajouté à la vue Corpus (il a été importé par une version interne du module TXT+CSV de TXM et contient les annotations Analec et leur modèle d'annotation)

Exemple de fichiers .aa, .aam et .ac exportés depuis Analec pour le projet DEMOCRAT : Cleves-brut-simplifie.zip

C. Corpus TXM quelconque

Tout corpus importé dans TXM peut être annoté selon un modèle Analec2) 3).

Il faut pour cela lui associer au préalable un modèle d'annotation Glozz :

  • soit en important la description d'un modèle d'annotation depuis un fichier d'extension ”.aam” à l'aide de la commande “Analec > Import Glozz model…', après avoir sélectionné le corpus qui va recevoir le modèle d'annotation dans la vue Corpus
    • on trouvera le fichier modèle d'annotation Glozz de référence du projet DEMOCRAT à l'adresse suivante democrat.aam.
  • soit en l'éditant directement au moyen de la commande “Analec > Edit Annotation Structure'

Dès qu'un modèle d'annotation Glozz est associé à un corpus, son Édition dispose d'un bouton “Annoter” actif (bouton “crayon” en bas à gauche) qui permet de lancer une session d'annotation interactive.

Importer des annotations

Il est possible d'importer des annotations, représentées dans le format XML-TEI URS, dans un corpus TXM pré-existant dont les textes contiennent les mots correspondants aux annotations (les annotations sont notamment définies par les empans de mots sur lesquels elles s'appliquent).

Une représentation XML-TEI URS des annotations d'un corpus TXM est créée avec la commande “Fichier > Exporter > Corpus au format XML-TEI URS…” décrite plus bas.

Au format XML-TEI URS

  • la commande “Import XML-TEI URS annotations…” du menu principal Analec importe les annotations URS à partir d'un ou de plusieurs fichiers d'annotations encodées au format XML-TEI URS.
  • elle prend comme paramètres :
    • directory : un répertoire contenant des fichiers d'annotations encodées au format XML-TEI URS ;
    • aamFile : un fichier au format XML Gloz '.aam' de déclaration de la structure d'annotation utilisée par les fichiers d'annotations ;
    • resetAnnotations : une option pour supprimer ou non toutes les annotations pré-existantes du corpus avant l'import.

Remarques :

  • les textes composant le corpus recevant les annotations doivent contenir des mots dont l'identifiant correspond à celui des mots ciblés par les annotations importées ;
  • les annotations importées ne trouvant pas de mots avec leurs identifiants cibles dans le corpus seront ignorées ;
  • lors de l'import à partir de N fichiers d'annotations correspondant à N textes présents dans le corpus, les annotations seront importées automatiquement dans leur texte à partir de leurs identifiants de mots.

Annoter des unités interactivement depuis les éditions de textes du corpus

lancer une session d'annotation

  • ouvrir l'édition du corpus, par exemple le corpus PRINCESSEBRUTSIMPLIFIETEXTE, (clic droit sur l'icone du corpus et menu contextuel “Edition')
  • cliquer sur le bouton “Annoter” (bouton crayon situé en bas de l'édition à gauche)
  • la barre d'outils des unités s'ouvre en haut de l'édition
  • ainsi que la fenêtre d'édition des unités (vue “Unit”) en bas de l'édition
  • remarque : dans TXM les annotations Analec sont posées sur les mots et non sur les caractères comme dans Analec. Les mots sont les mots simples définis par TXM (pas composés, souvent étiquetés et lemmatisés, etc.) ou par l'utilisateur selon le module d'import de textes sources qui a été utilisé pour créer le corpus. Le corpus PRINCESSE a été importé avec le module TXT+CSV en appliquant le modèle TreeTagger français (le s long ruine les performances). Il s'agit donc de mots standards (par défaut) de TXM. La ponctuation est assimilée aux mots (eg la virgule est un mot que l'on peut sélectionner).

visualiser les unités présentes

  • dans la barre d'outils des unités sélectionner un type d'unité → toutes les unités de ce type sont mises en évidence dans la page

créer des unités

  • sélectionner quelques caractères ou la totalité d'un mot dans l'édition
    • créer l'unité correspondant au mot avec le bouton “Créer” de la barre d'outils des unités ou la touche “Entrée” du clavier
  • sélectionner plusieurs mots (ou portions de mots) dans l'édition
    • créer l'unité avec le bouton “Créer”
  • double-cliquer sur un mot
    • créer l'unité avec la touche “Entrée” du clavier
  • les unités sont mises en évidence avec la couleur jaune clair et l'unité courante avec du jaune foncé

éditer les propriétés d'une unité

  • cliquer directement sur l'unité ou bien la sélectionner par son identifiant dans le menu des identifiants d'unités (voir la section 'sélection des unités' ci-dessous)
  • les propriétés de l'unité s'affichent dans la vue “propriétés” et sont éditables
  • la valeur d'une propriété peut être choisie dans la liste des valeurs déjà connues (bouton [▼])
  • la valeur peut également être saisie directement
    • le raccourcis clavier CTRL+ESPACE active le mécanisme d'auto-complétion infixe (modifiable dans les préférences)
    • l'auto-complétion affiche la liste des valeurs déjà connues commençant par ce qui a déjà été saisi
      • cette liste sert à choisir directement la valeur souhaitée sans avoir à la re-saisir entièrement
        • navigation dans la liste
          • sélectionner la valeur suivante ou précédente (+1 ou -1)
            • Flèche_vers_le_bas ou Flèche_vers_le_haut
          • sélectionner la valeur +10 ou -10
            • Page_vers_le_bas ou Page_vers_le_haut
          • sélectionner la première ou la dernière valeur
            • Début ou Fin
    • continuer la saisie réduit la liste des valeurs proposées
    • la touche Échap ou Esc (en haut à gauche du clavier) permet de quitter le mode d'auto-complétion : la saisie continue là où elle en était

sélectionner des unités

  • depuis l'édition
    • cliquer sur l'unité → l'unité est mise en évidence et ses propriétés s'affichent dans la vue Unit
    • aller à l'unité suivante avec le raccourci clavier Ctrl-Flèche_vers_la_droite (tout en maintenant la touche 'Ctrl' enfoncée, appuyer sur la touche 'Flèche_vers_la_droite')
    • aller à l'unité précédente avec le raccourci clavier Ctrl-Flèche_vers_la_gauche
  • depuis la barre d'outils des unités (située en haut de l'édition)
    • utiliser les boutons de flèches droite (◀) et gauche (▶) pour aller à l'unité précédente ou suivante
    • utiliser les boutons de flèches droite (|◀) et gauche (▶|) pour aller à la première ou dernière unité
    • cliquer sur l'identifiant courant
      • aller à l'unité suivante avec la touche Flèche_vers_le_bas ou avec la molette de la souris vers le bas ou deux doigts glissés vers le haut sur le trackpad (le sens peut être inversé selon les systèmes d'exploitation)
      • aller à l'unité précédente avec la touche Flèche_vers_le_haut ou avec la molette de la souris vers le haut ou deux doigts glissés vers le bas sur le trackpad
      • aller 10 unités plus loin avec la touche Page_vers_le_bas
      • aller 10 unités en arrière avec la touche Page_vers_le_haut
      • la navigation dépassant la fin de la liste cycle au début de la liste (même chose pour le dépassement du début de la liste)
      • sélectionner l'unité par la saisie de son identifiant puis validation avec la touche Entrée
        • pendant la saisie, on peut activer l'auto-complétion avec le raccourcis Ctrl-Espace
        • quand l'auto-complétion est activée la liste des identifiants correspondants à ce qui a déjà été saisi s'affiche
          • cette liste sert à choisir directement l'identifiant souhaité sans avoir à saisir la totalité de l'identifiant
            • navigation dans la liste
              • sélectionner l'identifiant suivant ou précédent (+1 ou -1)
                • molette de la souris
                • Flèche_vers_le_bas ou Flèche_vers_le_haut
              • sélectionner l'identifiant +10 ou -10
                • Page_vers_le_bas ou Page_vers_le_haut
          • continuer la saisie réduit la liste des identifiants proposés

rechercher des unités par la valeur de leurs propriétés

On peut rechercher des unités par leurs propriétés en cliquant sur le bouton “Chercher” (icone de loupe). Cette commande ouvre un formulaire de recherche dans une nouvelle vue, qui s'ouvre par défaut en bas de l'interface de TXM.

Le formulaire de recherche comporte :

  • sur la première ligne :
    • à gauche
      • un bouton “Chercher” qui lance la recherche en utilisant les critères courants du formulaire
      • un bouton de remise à zéro des critères de recherche
    • à droite
      • des boutons de navigation dans les résultats : aller au premier résultat, précédent, numéro de résultat courant, suivant, dernier
      • un bouton “Concordance” pour afficher la concordance des mots des unités correspondants à la recherche
  • sur les lignes suivantes : un champ de recherche par propriété
    • on saisit la valeur recherchée dans le champ de la propriété concernée
    • chaque champ dispose d'un menu déroulant des valeurs possibles de la propriété
    • un champ peut contenir soit une valeur exacte soit une expression régulière
    • on peut faire la recherche dans plusieurs propriétés à la fois pour une recherche combinée
    • si un champ est laissé vide alors la propriété ne participe pas à la recherche

FMB : Il est donc possible de rechercher une valeur exacte dans le champ REF, par exemple : “Jeanne” ou “M. de Crisange”.

Grâce aux regexp, il est possible de retrouver :

- un ensemble de valeurs, selon un motif donné

exemple : M\. de .* (retrouver l'ensemble des “M. de” annotés)

- et donc aussi les champs vides :

exemple : ^$ (retrouver l'ensemble des champs vides, sans annotation)

A NOTER : En remplaçant la valeur vide par “NO” dans le formulaire de recherche, la valeur vide n'est pas remplacée par “NO” dans le texte annoté. Le formulaire est uniquement disponible en lecture, ne modifie aucunement le texte annoté. (… même s'il est cependant possible d'écrire et de modifier les valeurs du formulaire de recherche)

rectifier les bornes d'une unité

Il y a 3 modes de rectification des bornes d'une unité :

  • corriger la borne gauche :
    • 1) sélectionner l'unité
    • 2) cliquer sur le bouton 'corriger la borne gauche' ”[ ↔”
    • 3) cliquer sur le mot qui sera la nouvelle borne gauche de l'unité
  • corriger la borne droite :
    • 1) sélectionner l'unité
    • 2) cliquer sur le bouton 'corriger la borne droite' “↔ ]”
    • 3) cliquer sur le mot qui sera la nouvelle borne droite de l'unité
  • corriger simultanément la borne gauche et la borne droite :
    • 1) sélectionner l'unité
    • 2) cliquer sur le bouton 'corriger les bornes gauche et droite' ”[ ↔ ]”
    • 3) sélectionner les mots qui formeront les nouvelles bornes de l'unité (comme lors de la création d'une unité)

créer des unités à cheval sur deux pages d'édition

  • créer l'unité à partir de ses premiers mots dans la première page (derniers mots de la page)
  • lancer la rectification des bornes
  • passer à la page suivante
  • étendre l'unité à ses derniers mots
  • on procède de la même manière pour créer une unité à partir de ses derniers mots situés dans la deuxième page (premiers mots de la page)
  • si l'unité s'étend sur plus de deux pages, suivre la même procédure en se déplaçant du nombre de pages nécessaire

supprimer une annotation

  • sélectionner une unité en vert clair par un clic, elle devient vert foncé
  • la supprimer avec le bouton “Supprimer” ou la touche “Suppr” du clavier

sauver les annotations

  • avec le bouton d'enregistrement (bouton crayon+disquette situé en bas à gauche de l'édition)
  • ou avec le raccourcis claver CTRL+S

Annoter des schémas interactivement depuis les éditions de textes du corpus

L'annotation de schémas se lance de la même façon que celle des unités, en ouvrant en plus le menu [v] du bouton “crayon” et en sélectionnant l'entrée “Schemas”. Remarque : on peut changer le mode d'annotation - schémas ou unités - à tout moment à l'aide du menu [v] du bouton “crayon”.

L'annotation peut commencer dès que la barre d'outils d'annotation est ouverte en haut de l'édition :

Barre d'outils des schémas?900

La création de schémas et l'affectation d'unités aux schémas ne se fait pas de façon interactive par l'interface utilisateur mais via la macro “analec > edit > CreationChaine”.

Liste des fonctionnalités dans l'ordre d'apparition de la barre d'outils :

Naviguer dans les schémas

Il faut d'abord avoir sélectionné un type de schéma à explorer dans la liste déroulante des types de schéma. Par défaut l'interface sélectionne le premier type de schéma.

Après avoir sélectionné un type de schéma, le composant de navigation et ses 4 boutons sont activés :

  • le bouton (|<) permet de retourner au premier schéma
  • le bouton (<) permet de retourner au schéma précédent
  • le champ du numéro de schéma courant est une zone éditable qui permet d'aller directement à un schéma si on connaît son numéro
  • le bouton (>) permet d'aller au schéma suivant
  • le bouton (>|) permet d'aller au dernier schéma

Rechercher un schéma

La recherche est similaire à celle des unités. Elle se lance en cliquant sur le bouton “loupe”.

Supprimer un schéma

Pour supprimer un schéma, il faut au préalable l'avoir sélectionné grâce aux outils de navigation et de sélection, puis cliquer sur le bouton “croix” rouge situé après les outils de navigation des schémas.

Naviguer dans les unités d'un schéma

Un schéma peut contenir des unités. Dans ce cas, les unités du schéma sont mis en évidence dans l'édition par un surlignage en jaune clair. Par défaut, la première unité est sélectionnée. L'unité en cours de sélection est mise en évidence en gras et surlignée en jaune plus foncé.

  • le bouton (|<) permet d'aller à la première unité
  • le bouton (<) permet d'aller à l'unité précédente
  • le champ du numéro d'unité courante est une zone éditable qui permet d'aller directement à une unité si on connaît son numéro dans le schéma
  • le bouton (>) permet d'aller à l'unité suivante
  • le bouton (>|) permet d'aller à la dernière unité

Supprimer des unités d'un schéma

Une fois que l'on a navigué jusqu'à l'unité que l'on souhaite supprimer, on peut la supprimer à l'aide du bouton “croix” rouge situé à droite des outils de navigation dans les unités.

Exporter des annotations

Dans un corpus binaire TXM

  • S'assurer que les dernières modifications sont bien enregistrées avec la commande “Analec > Sauvegarder les annotations”
  • Exporter le corpus dans un fichier .txm avec la commande “Fichier > Exporter”

Au format XML-TEI URS

Au format Glozz

  • la commande “Fichier > Exporter > Corpus au format Glozz…” exporte les annotations des unités d'un certain type dans un fichier au format Glozz.

Enrichir des annotations Analec avec des macros

Utilisation de macros

Pour exécuter les macros il faut :

  • ouvrir la vue Macro avec la commande 'Affichage > Vues > Macro'
  • éventuellement glisser-déposer cette vue par son onglet à un endroit pratique, par exemple dans la moitié inférieure de la vue Corpus
  • ouvrir le répertoire “analec”
  • double-cliquer sur le nom d'une macro pour la lancer

En général, il faut sélectionner le corpus sur lequel on veut travailler dans la vue Corpus avant de lancer la macro.

Pour lire ou modifier le code Groovy d'une macro :

  • clic droit sur le nom de la macro dans la vue Macro
  • lancer la commande 'Éditer' du menu contextuel
    → un éditeur de texte s'ouvre avec le code de la macro
  • quand on clique dans la vue de l'éditeur de texte (pour y placer le curseur de saisie) la barre d'outils d'édition remplace celle des corpus
  • ne pas oublier de sauver les modifications (avec le bouton “disquette”/sauver de la barre d'outils) avant de relancer la macro

Macros d'ajouts d'annotations

  • PremierMaillon : ajoute une propriété NEW à la valeur ‘YES’ aux unités d’un certain type si la valeur de sa propriété REF est rencontrée pour la première fois et ‘NO’ sinon.4)
  • AjoutDefinitude : ajoute une propriété DEFINITUDE à une des valeurs ‘DEFINI’, ‘INDEFINI’, ‘DEMONSTRATIF’, ‘AMBIGU’ ou ‘NONE’ aux unités d’un certain type ;
  • CreationChaines : crée des schémas de type 'CHAINE' composés d'unités ayant la propriété 'REF' de valeur identique ;
  • ResetAnnotations : supprime toutes les annotations du corpus ;
  • CompUnitProperties : en travaux ;
  • Frpos2Categorie : remontée de propriétés morphosyntaxiques de mots en français moderne dans des propriétés d'unités qui les contiennent (en travaux) ;
  • Fropos2Categorie : remontée de propriétés morphosyntaxiques de mots en ancien français dans des propriétés d'unités qui les contiennent (en travaux) ;
  • CreationRelations : en travaux.
  • PROPERanaphoriques : recatégorise la propriété PRO.PER (pronom personnel) en distinguant les anaphoriques (PRO.PERA) et les déictiques (PRO.PERD) ;
  • Accessibilité : ajoute une nouvelle propriété “Accessibilité” (accessibilité du référent) selon la catégorie morphosyntaxique de la mention.

Exploiter des annotations Analec avec des macros

Ces macros permettent à l'utilisateur de prototyper des calculs basés sur des annotations Analec et toutes autres informations disponibles dans la plateforme TXM qui pourront devenir des outils d'analyse intégré à TXM plus tard.

Macros de vérification de Cohérence

Macros préliminaires de contrôle de la cohérence des annotations (proto-validation des annotations d'un texte par rapport à la structure d'annotation utilisée). Elles ont été développées pour vérifier la cohérence des annotations entre plusieurs annotateurs (les mesures supposent une cohérence parfaite).

  • UnitTypes : index des types d'unités, des schémas d'un certain type ;
  • CategorieGrammaticale : index des valeurs de propriétés, des unités d'un certain type, des schémas d'un certain type ;
  • SchemaTypes : index des types de schémas ;
  • UnitTypesInSchema : ibid. ;
  • UnitTypesNotInSchema : index des types d'unités non associées aux schémas d'un certain type ;
  • CheckAnnotationStructureValues : recense et supprime (si demandé au lancement de la macro) toutes les valeurs d'une propriété d'un type donné d’unité de la structure d'annotation non utilisées par les unités du corpus.

Macros de décompte des structures du corpus

StructuresIndex

Paramètres :

  • structures : liste des structures à analyser
  • structProperties : liste des propriétés à afficher des structures à analyser
  • query : éventuellement une requête CQL pour ne dénombrer qu'une partie des mots
  • wordProperty : propriété des mots à afficher
  • displayIndex : affiche pour chaque structure un index des mots les plus fréquents
  • Vmax : nombre de mots affiché si displayIndex est activé

Macros de Mesures

Un premier jeu de macros a été réalisé pour calculer différentes mesures à l'occasion de l'écriture d'un article pour Langue française n° 195 (3/2017) (CG, JG, VO).

  • NombreDeChaines : nombre de chaînes de référence du corpus ;
  • LongueurMoyenne : longueur moyenne des chaînes de référence et index hiérarchique des longueurs de chaînes du corpus ;
  • NatureDuPremierMaillon : index des valeurs d'une propriété donnée de la première unité de chaque chaîne du corpus ;
  • CoefficientStabilite : rapport entre le nombre d'unités ayant la propriété 'Catégorie' à la valeur 'GN Défini' ou 'GN Démonstratif' ou 'Nom Propre' et le nombre de formes différentes représentant ces unités du corpus ;
  • DensiteReferentielle : rapport entre le nombre d'unités d'un certain type et le nombre de mots du corpus (en %) ;
  • DistanceInterMaillonnaire : histogramme des distances, en mots ou en caractères, entre le dernier mot d'une unité et le premier mot de la suivante du corpus.
  • AllMesures : calcul simultané de toutes les mesures précédentes.

Macros d'exploitation des annotations URS

Les macros suivantes adaptent leur comportement suivant qu'elles s'appliquent à un corpus, à un ensemble de corpus ou à une partition. Ces objets leurs sont fournis en les sélectionnant dans la vue Corpus avant de les appeler.

Paramètres de sélection d'unités

Toutes ces macros utilisent les paramètres de sélection d'éléments URS suivants :

  • sélection de schémas par propriétés :
    • par une combinaison de champs5) :
      • schema_type : sélection du type de schéma (exemple 'CHAINE')
      • schema_property_name : sélection de schéma par une propriété (exemple 'REF')
      • schema_property_value : expression régulière de sélection de la valeur de la propriété (par défaut '.*' pour sélectionner toutes les valeurs) (exemple 'Jean.*')
    • par une requête URSQL de schéma de la forme TYPE@PROPRIETE=VALEUR
      • schema_ursql : requête de sélection de schéma (exemple 'CHAINE@REF=Jean.*')
    • minimum_schema_size : longueur minimale des schémas à prendre en compte dans le calcul (utile notamment pour filtrer les singletons)
    • maximum_schema_size : longueur maximale des schémas à prendre en compte dans le calcul
  • sélection d'unités par propriétés :
    • par une combinaison de champs6) :
      • unit_type : sélection d'unité un type (exemple 'MENTION')
      • unit_property_name : sélection d'unité par une propriété (exemple 'CATEGORIE')
      • unit_property_value : expression régulière de sélection de la valeur de la propriété (par défaut '.*' pour sélectionner toutes les valeurs) (exemple 'GN.*')
    • par une requête URSQL d'unité de la forme TYPE@PROPRIETE=VALEUR
      • unit_ursql : requête de sélection d'unité (exemple 'MENTION@CATEGORIE=GN.*')
  • sélection d'unités par limites de structures :
    • limit_cql : expression CQL de désignation des limites de structures à utiliser dans le calcul. Elle doit mobiliser une structure disponible dans le corpus et faire un 'expand to' pour obtenir autant d’intervalles que de structures correspondantes
      • par exemple :
        • <div> [] expand to div, pour utiliser toutes les limites de div
        • <div_type=“livre”> [] expand to div, pour utiliser toutes les limites de div de type “chapitre”
        • <p> [] expand to p, pour utiliser toutes les limites de paragraphes
        • etc.
    • limit_distance : numéro de l'unité depuis une limite de structure
      • exemples :
        • 1 : première unité située après une limite de structure
        • 2 : deuxième unité située après une limite
        • etc.
        • 0 : toutes les unités situées d'une limite à la suivante ~= dans une structure
        • -1 : la dernière unité située avant une limite
        • -2 : l'avant-dernière unité située avant une limite
        • etc.

Paramètres généraux

  • debug : pour afficher des informations détaillées sur les calculs

Paramètres spécifiques

Les paramètres supplémentaires spécifiques à chaque macro sont indiqués ci-dessous.

  • UnitsSumary : affiche le dénombrement d'unités sélectionnées ainsi que des valeurs de leurs propriétés
    • pas de paramètre spécifique
  • UnitsList : affichage d'unités sélectionnées
    • paramètres :
      • output_mode : mode d'affichage des résultats :
        • FORMATED (par défaut) : affiche les unités sous la forme : #n°, adresse premier mot - adresse dernier mot, forme de surface, propriétés
        • COUNT : affiche seulement le décompte d'unités
        • TABULATED : affiche les informations des unités séparées par des tabulations : #n°, adresse premier mot - adresse dernier mot, forme de surface, propriétés
        • CQL : affiche une requête CQL de sélection des mots des unités
        • Concordance : affiche la concordance des mots des unités sélectionnées
  • UnitsIndex : index hiérarchique des valeurs d'une propriété de la n-ième unité apparaissant après ou avant les limites d'une structure donnée
    • paramètres :
      • unit_property_display : propriété d'unité à utiliser pour le calcul (par exemple 'CATEGORIE')
      • word_property_display : propriété de mot à utiliser pour le calcul (par exemple 'frpos')7)
      • output_2D : affiche l'histogramme des unités sous forme 2D ou 3D (pas opérationnel)
      • output_legend : option d'affichage de la légende de l'histogramme
      • output_fmin : option d'affichage des valeurs dont le nombre d'apparition dépasse output_fmin
      • output_histogram : option d'affichage de l'histogramme
      • output_lexicaltable : option de création d'une table lexicale à partir des données de l'index
    • variantes : appliquée à un objet multiple (ensemble de corpus ou sous-corpus, ou partition) la macro retourne un tableau de résultats avec une colonne par corpus, sous-corpus ou partie
    • remarques : la macro cqp/ListMatches peut être utile pour vérifier les positions des limites d'un corpus ou d'un sous-corpus
  • SchemasProgression : affiche le graphique de progression des N chaines les plus longues et met en valeur les unités sélectionnées.
    • paramètres :
      • schema_property_display : propriété à utiliser pour nommer le schéma dans la légende du graphique
      • struct_name : nom de la structure à affichée sur le graphique de progression
      • struct_prop : nom de la propriété de structure à affichée sur le graphique de progression
      • line_width : épaisseur des lignes de la progression
      • cummulative : affiche la courbe de type cummulative, sinon la densité
      • bande_width : largeur de bande densité de la progression (densité)
      • show_lines : affiche les lignes de la courbes (cummulative)
      • show_title : affiche ou pas le titre de la progression
      • show_legend : affiche ou pas la légende de la progression
  • SchemasSumary : affiche le dénombrement de schémas sélectionnées ainsi que des valeurs de leurs propriétés
    • pas de paramètre spécifique

Expérimentations - En préparation

  • UnitsCorrelation : décompte les corrélations entre 2 propriétés d'unité dans un tableau à 2 dimensions et affichage des corrélations (au sens statistique de R)
    • paramètres :
      • les paramètres de sélection ci-dessus. La sélection des unités permet de mettre en évidence les points correspondants
      • unit_prop1 : propriété Analec d'unité ou propriété CQP des mots d'Unité de description des variables
      • unit_prop2 : propriété Analec d'unité ou propriété CQP des mots d'Unité d'identification des individus
      • corr_method : calcul de correlation : pearson, spearman ou kendall
      • corr_style : style d'affichage du score de relation : circle, square, ellipse, number, shade, color ou pie
      • corr_layout : position des scores de corrélations dans le graphique : full, lower ou upper
      • corr_order : ordre d'affichage des individus dans le graphique : AOE, FPC, hclust ou alphabet
      • output_lexicaltable : générer une table lexicale à partir du décompte des propriété

method, style, layout et order sont directement les paramètres du package R corrplot utilisé par la macro

  • UnitsProgression : affiche le graphique de progression d'unités sélectionnées et une courbe par ventilation d'une propriété d'Unite.
    • paramètres :
      • les paramètres de sélection ci-dessus. La sélection des unités permet de mettre en évidence les points correspondants
      • struct_name : nom de la structure à affichée sur le graphique de progression
      • struct_prop : nom de la propriété de structure à affichée sur le graphique de progression
      • line_width : épaisseur des lignes de la progression
      • bande_width : largeur de bande densité de la progression
      • show_title : affiche ou pas le titre de la progression
      • show_legend : affiche ou pas la légende de la progression
  • RelationsList : affichage des valeurs d'une propriété des unités d'une relation d'un certain type ;
1) corpus Princesse de Clèves équipé du modèle d'annotation DEMOCRAT mais sans annotations
2) Pour importer un corpus dans TXM, voir la section 10.3.1 Importer des sources textuelles dans TXM du manuel de TXM pour importer un corpus dans un des formats TXT, XML, XML-TEI, ODT, DOCX, RTF, Alceste, TRS, TMX, CQP, etc. ainsi que le support de cours de l'Atelier préparation de corpus et import dans TXM.
3) On trouvera sur le site de diffusion de TXM des corpus exemples TXM prêts à l'emploi.
4) ATTENTION : Le champ “NEW” est ajouté dans la structure, mais il n'est pas affiché dans la vue. On ne peut donc pas le corriger… Pour le faire, il faut enregistrer les annotations et relancer TXM. La vue sera alors rafraîchie.
5) , 6) Si un des champs n'est pas renseigné alors il est ignoré
7) si ce paramètre est renseigné, le paramètre unit_property_display est ignoré
public/umr_lattice/democrat/public/manuel_utilisation_extension_analec.txt · Dernière modification: 2018/01/29 16:01 par alexei.lavrentev@ens-lyon.fr