Outils pour utilisateurs

Outils du site


Panneau latéral

public:spec_analec_mesures

Mesures sur les annotations Analec

Définitions

  • chaîne de référence = schéma Analec de type 'Coréférence'
  • maillon = unité Analec de type 'Maillon' d'une chaîne de référence

Spécifications

1.densité référentielle

  • argument : texte, types des unités à dénombrer
  • calcul : nombre total d'unités de type “Maillon” du texte / nombre de mots du texte en %

2.longueur moyenne des chaînes de référence

  • argument : texte, sélection de chaînes de référence par la longueur minimale (eg >= 3) et éventuellement une propriété à une certaine valeur
  • calcul :
    • liste des longueurs avec leur fréquence et leur fréquence cumulée, triée par longueur croissante
    • moyenne
    • médiane
    • diagramme en bâtons
      • cah
        • colorisation des classes
          • choix possible du nombre de classes de la CAH à coloriser

3.nombre de chaînes de référence d'un texte

  • argument : texte, sélection de chaînes de référence par la longueur minimale (eg >= 3) et éventuellement une propriété du schéma à une certaine valeur
  • calcul : nombre de chaînes sélectionnées

4.coefficient de stabilité référentielle

  • argument : texte, sélection de chaînes de référence par la longueur minimale (eg >= 3) et éventuellement une propriété du schéma à une certaine valeur, formes du calcul = formes graphiques ou formes de lemmes
  • calcul : pour chaque chaîne :
    • afficher la valeur de la propriété 'Nom du référent' de la chaîne
    • afficher la longueur de la chaîne
    • afficher le rapport et la valeur de : nombre de maillons dont la propriété 'Catégorie' vaut 'GN Défini' ou 'GN Démonstratif' ou 'Nom Propre' / nombre de formes différentes des maillons dont la propriété 'Catégorie' vaut 'GN Défini' ou 'GN Démonstratif' ou 'Nom Propre'

5.distance moyenne inter-mayonnaise (distance inter-maillonnaire)

  • argument : texte, sélection de chaînes de référence par la longueur minimale (eg >= 3) et éventuellement une propriété du schéma à une certaine valeur, unité de distance = mots ou caractères
  • calcul :
    • distance = nombre d'unités de distance entre le dernier mot du premier maillon et le premier mot du deuxième maillon
    • moyenne de toutes ces distances
      • médiane, barplot, cah, etc.

version revue pour inclure les cadences

  • on cherche MENTION@REF=Cambrais
  • retour à l'édition pour visualiser les 4 mentions de cette chaîne :
    à [Cambray], [où] pour lors estoit ledict duc Philippes ; et luy joinct [audict lieu] et le mareschal de Bourgongne, qui estoit de la maison de Neufchastel, ledict conte de Charroloys feist une grande assemblée de gens de conseil et autres des gens de son père en l'hostel de l'evesque de [Cambray],
  • sortie que j'aurais attendue :
    distances : [1, 10, 40]
    distance moyenne : 51 / 3 = 17
    distance médiane : 10
    distance quartiles : 1 1 10 40 40
    cadences : [1, 1, 10, 40]
    cadence moyenne : 52 / 4 = 17.33
    cadence médiane : 10
    cadence quartiles : 1 1 10 40 40
  • Rq. 1. Pour mesurer la distance, j'ai donc compté les mots entre deux mentions, il me semble que c'est le plus intuitif (distance zéro ⇔ les mentions se touchent) et que cela correspond à l'idée que l'on se fait quand on lit la doc : “La distance est calculée en mots : depuis le dernier mot d'une unité jusqu'au premier mot de l'unité suivante dans le corpus.”
  • Rq. 2. J'ai remis la liste des distances et et celle des cadences (même si bien sûr il faudrait prévoir de les tronquer ou de ne pas les donner lorsqu'elles sont longues), comme cela semblait fait dans une version précédente de la commande, d'après le résultat de la recette ici : https://groupes.renater.fr/wiki/txm-info/public/spec_exploitation_annotation/spec_urs_mesures2#units_inter_distance
    • J'ai pensé que cela s'afficherait peut-être en changeant de valeur le paramètre Debug, mais celui-ci a affiché d'autres infos.
  • Rq. 3. Pour N mentions il y a N-1 distances (les distances sont définies par les intervalles entre les mentions) alors qu'il y a N cadences (les cadences sont définies pour chaque mention en prenant le min de ses 2 distances aux mentions précédente et suivante, ou bien la seule distance définie pour cette mention -pas de précédente ou pas de suivante). S'il n'y a qu'une seule mention, la mesure n'est pas définie.
  • Rq. 4. Noter que la liste des cadences ne peut pas se calculer uniquement à partir de la liste des distances triée par valeur croissante, elle se calcule sur la liste des distances triée selon l'ordre d'occurrence dans le texte.

6.index des natures de premier maillon (nature du premier maillon)

  • argument : texte, sélection de chaînes de référence par la longueur minimale (eg >= 3) et éventuellement une propriété du schéma à une certaine valeur, nature du calcul = soit la valeur de la propriété Catégorie du premier maillon soit la valeur de la propriété 'pos' du premier mot du premier maillon
  • calcul, pour chaque chaîne :
    • afficher la valeur de la propriété 'Nom du référent' de la chaîne
    • liste des fréquences de valeurs de nature

7.index des natures de maillons (catégorie grammaticale)

  • argument : texte, sélection de chaînes de référence par la longueur minimale (eg >= 3) et éventuellement une propriété du schéma à une certaine valeur, nature du calcul = soit la valeur de la propriété Catégorie des maillons (soit la valeur de la propriété 'pos' du premier mot des maillons : en chantier)
  • calcul, pour chaque chaîne :
    • afficher la valeur de la propriété 'Nom du référent' de la chaîne
    • liste des fréquences de valeurs de nature

Interface de paramétrage des mesures

Pour pratiquement chaque mesure on retrouve les paramètres suivants :

  • Unités
    • Sélection sur : le nom du type de l'unité (ex: Maillon)
    • Sélection sur : propriété + valeur (expression régulière)
    • Projection sur (propriété dénombrée. ex: CQP:{word, pos…}, Analec:{#forme#, Catégorie…})
  • Schémas
    • Sélection sur : le nom du type du schéma (ex: Coréférence)
    • Sélection sur : propriété + valeur (expression régulière)
    • Sélection sur : le nombre d'unités
    • Projection sur
  • Relations
    • Sélection sur : le nom du type du schéma (ex: Appartenance)
    • Sélection sur : propriété + valeur (expression régulière)
    • Projection sur

Paramètres des macros

Principaux paramètres utilisés par les macros :

  • schema_type : pour limiter le travail d'une macro à un type de schéma particulier, valeur par défaut : Coréférence
  • minimum_schema_size : pour limiter le travail aux schémas d'une longueur minimum, valeur par défaut : 3
  • schema_property_name : pour limiter le travail aux schémas ayant une propriété particulière, pas de valeur par défaut
    • schema_property_value1) : pour limiter le travail à certaines valeurs de la propriété du schéma, pas de valeur par défaut (utiliser 'a|b' pour sélectionner les valeurs 'a' ou 'b', utiliser '.*' pour sélectionner toutes les valeurs)
  • display_property_name : nom de la propriété du schéma à afficher, valeur par défaut : 'Nom du référent'
  • unit_type : pour limiter le travail à un type d'unité particulier, valeur par défaut : Maillon
  • unit_property_name : pour limiter le travail aux unités ayant une propriété particulière, pas de valeur par défaut
    • unit_property_value2) : pour limiter le travail à certaines valeurs de la propriété de l'unité, pas de valeur par défaut (utiliser 'a|b' pour sélectionner les valeurs 'a' ou 'b', utiliser '.*' pour sélectionner toutes les valeurs)
  • word_property : la propriété de mots des unités à dénombrer, valeur défaut :
    • soit 'word' (parmi les valeurs possibles : word, lemma, frlemma, frolemma et #forme#)
    • soit 'Catégorie' (parmi les valeurs possibles : Catégorie, pos, fropos, frpos)

Macro AllMesures

Cette macro appelle toutes les macros de mesures d'un coup :

  • tsvFile : Fichier TSV résultat, valeur par défaut : result.tsv
  • default_* : valeurs par défaut de tous les paramètres correspondants dans les macros de mesures

Il faut aller voir en détail dans le fichier AllMesuresMacro.groovy pour les paramètres spécifiques. Par exemple, la macro CoefficientStabilite va régler unit_property_name à “Catégorie” et unit_property_value à “GN Défini|GN Démonstratif|Nom Propre”.

Contrôles de cohérence

Ces contrôles peuvent diagnostiquer a priori (présentés avant de faire des calculs de mesures), pro (dans le code des calculs) ou a posteriori (présentés en même temps que le résultat des calculs) la cohérence des annotations Analec par rapport aux calculs pour détecter des incohérences, des impossibilités de calcul, etc. Ils sont sensés aider à faire converger des annotations pas forcément homogènes a priori pour obtenir un calcul dont on a un avis sur la cohérence (homogénéité, exhaustivité, etc.).

  • contrôle de cohérence pour les 'chaînes de référence'
    • index hiérarchique des valeurs de type de schéma
      → on voit s'il y a des 'coréférence', 'co-référence', 'coreférence', etc. mélangées avec des 'Coréférence'
  • maillon
    • index hiérarchique des valeurs de type d'unités appartenant à une chaîne
    • index hiérarchique des valeurs de type d'unités n'appartenant pas à une chaîne
      → on voit la diversité possible des codages de 'Maillon' et leur codage hors chaîne potentiel
    • vérifier si un maillon se trouve dans plusieurs chaînes
  • densité référentielle
    • si (nombre total d'unités de type 'Maillon' du texte >= nombre de mots du texte) alors il y a peut-être un bug de codage (par exemple un résultat de conversion foiré)
  • coefficient de stabilité référentielle
    • index hiérarchique des valeurs de la propriété 'Catégorie' de maillons (de chaînes utilisées pour ce calcul ou de chaînes quelconques) = mesure CategorieGrammaticale avec word_property=Catégorie
    • index hiérarchique des formes différentes du calcul = mesure CategorieGrammaticale avec word_property=word ou #forme#
  • index des natures de maillons ou de premier maillon
    • index des valeurs combinées de la propriété Catégorie des maillons et de la propriété 'pos' de leur premier mot
      → on voit s'il y a une incohérence entre le codage morphosyntaxique (automatique ?) du premier mot et le codage manuel supérieur de l'unité complète (par exemple si une pos ne peut pas participer à un GN ou à un Nom propre : V, etc.)

Recettes

V1

Pour cette recette, les mesures sont disponibles sous forme de macros en association avec une mise à jour de TXM spécifique.

  1. installer TXM 0.7.7
  2. mettre à jour TXM avec le site de mise à jour DEMOCRAT :
    1. activer le mode “avancé” dans les préférences de TXM
      1. Menu Outils > Préférences > TXM > Avancé
      2. cocher la case “Mode avancé”
      3. cliquer sur OK
      4. fermer et relancer TXM
    2. ajouter le site de mise à jour spécifique au chantier DEMOCRAT
      1. Menu Outils > Préférences > Installation/Mise à jour > Sites de logiciels disponibles
      2. cliquer “Ajouter”
      3. coller http://textometrie.ens-lyon.fr/dist/democrat dans le champ “Emplacement”, cliquer sur OK
    3. lancer la mise à jour (on récupère entre autres l'extension Analec)
  3. installer les macros
    1. télécharger les macros de mesures analec.zip
    2. décompresser l'archive dans $HOME/TXM/scripts/macro/org/txm/macro
      • le répertoire “analec” a été ajouté (il contient plusieurs fichiers *.groovy)
  4. charger les corpus binaires dans TXM : “DEPERIERS”, “CNN”, “GOMBERT” et “VILAIBAILUEL”
  5. lancer toutes les mesures sur ces corpus
    1. ouvrir la vue des macros (menu 'Affichage > Vues > Macro')
    2. sélectionner tous les corpus “DEPERIERS”, “CNN”, “GOMBERT” et “VILAIBAILUEL” dans la vue Corpus
    3. dans la vue Macro, double-cliquer sur la macro “AllMesures” du répertoire “mesures”, laisser les paramètres par défaut, puis cliquer sur “Run” pour la lancer
    4. le résultat de la macro est affiché dans la console
    5. résultat de la console results_consoles.txt
    6. dans la vue Macro, double cliquer sur la macro “CategorieGrammaticale” du répertoire “mesures” et cliquer sur “Run”de la fenêtre ouverte
    7. les histogrammes produits par la macro sont affichés et enregistrés dans le répertoire “results” de TXM (les chemins sont affichés dans la console)
    8. enfin la grille de mesure de la macro est enregistrée dans le fichier “results.tsv” indiquer en bas de la console TXM
    9. Comparer les résultats avec ceux obtenus resultats v.0.3.zip

V1 - contrôles de cohérence

  • Sélectionner le corpus DESPERIERS
  • lancer la macro “SchemaTypes”
    • résultat en console :
      Schemas types: [Coréférence:37]
  • lancer la macro “UnitTypes” en renseignant schema_type=“Coréférence”
    • résultat en console :
      ERROR UNIT IN MULTIPLE SCHEMA[254, 254]=[Fonction:Sujet, Plan énonciatif:Plan principal, Interprétation:Immédiate, Rôle actanciel:, Position:, Catégorie:Pron Indéfini, Expansion:Aucune, Niveau syntaxique:] in [[Introduction du référent:, Nom du référent:on, Nombre:], [Introduction du référent:, Nom du référent:, Nombre:]]
      ERROR UNIT IN MULTIPLE SCHEMA[343, 343]=[Fonction:Sujet, Plan énonciatif:Plan principal, Interprétation:Immédiate, Rôle actanciel:, Position:, Catégorie:Pron Indéfini, Expansion:Aucune, Niveau syntaxique:] in [[Introduction du référent:, Nom du référent:on, Nombre:], [Introduction du référent:, Nom du référent:, Nombre:]]
      
      Unites types: [Maillon:375]
  • lancer la macro “UnitTypesNotInSchema” en renseignant schema_type=“Coréférence”
    • résultat en console :
      unites: 415
      unites in schema: 375
      unites not in schema: [Maillon:40]
  • lancer la macro “CategorieGrammaticale” en renseignant word_property=“Catégorie”
    • résultat en console
      index des natures de maillons :
      Pron Pers Anaphorique	136
      Pron Pers Déictique	71
      Dét Possessif	33
      GN Défini	22
      Pron Indéfini	19
      Pron Relatif	17
      Nom Propre	13
      Verbe conjugué	12
      N ou GN sans dét	9
      GN Possessif	7
      GN Démonstratif	6
      GN Indéfini	4
      Pron possessif	3
      Autre	1
      Pron Démonstratif	1
  • lancer la macro “CategorieGrammaticale” en renseignant word_property=“word”
    • résultat en console
      index des natures de maillons :
      il	37
      luy	22
      qu’il	17
      vous	16
      ilz	15
      leur	13
      je	12
      qui	10
      son	9
      qu’ilz	9
      le	8
      tu	7
      moy	7
      sa	5
      Caillette	4
      Je	4
      les	4
      Triboulet	4
      lequel	3
      l’abbé	3
      d’eux	3
      nous	3
      qu’on	3
      l’ha	2
      tous	2
      jevous	2
      ses	2
      Il	2
      son maistre	2
      Polite	2
      le Bassecontre	2
      ce Bassecontre	2
      queje	2
      messieursqu’il	2
      le chantre	2
      voz	2
      j’avois	2
      l’hamis	1
      Cailletterespondoit	1
      va	1
      de hommeCaillette	1
      disoit	1
      le Caillette	1
      àCaillette	1
      avec pages	1
      à l’autre	1
      tousnenny	1
      les pages	1
      lesautres	1
      mesurequ’ilz	1
      estéles pages	1
      tant jeunesgens	1
      n’en	1
      LES pages	1
      tous pages	1
      du Seigneur	1
      un court	1
      sesgens	1
      qu’un	1
      mon	1
      Moy	1
      Mon	1
      m’escouter	1
      chevalje	1
      Qui	1
      avoitun maistre	1
      povre maistre	1
      Cemaistre	1
      le cheval	1
      cheval	1
      son cheval	1
      ce chevalje	1
      piecesd’hommes	1
      lesquelz	1
      savent	1
      ditPolite	1
      mit	1
      quiestoit	1
      un Polite	1
      tenoit	1
      à Bourgueil	1
      Monsieur l’abbé	1
      àl’abbé	1
      le moyne	1
      Moyne	1
      l’appelloyent	1
      un chantre	1
      quetu	1
      te	1
      sacuisine	1
      venoit	1
      Le chantre	1
      t’en	1
      apporta	1
      t’ha	1
      t’oubliera	1
      ce fol	1
      pria	1
      tes	1
      servoit	1
      selonsa	1
      Sa	1
      Mon chantre	1
      mesemble	1
      maistreme	1
      tes chanoines	1
      les chanoines	1
      Monsieur	1
      vous autresmessieurs	1
      des messieurs	1
      messieurs	1
      ceux	1
      messieurs tel	1
      deleur	1
      eux	1
      avons	1
      chacun	1
      nevous	1
      selonleurs	1
      Les nostres	1
      direntilz	1
      vous messieurs	1
      vouspromettez	1
      recongnoistrechacun	1
      Messieurs	1
      ilzvirent	1
      vostre	1
      chacunà	1
      les nostres	1
      disneronsnous	1
      Ilz	1
      Voicymessieurs	1
      leurs	1
      etnous	1
      soy	1
      l’un apresl’autre	1
      allerentcontens	1
      les vostres	1
      aux eux	1
      conclurent	1
      monsieur maistreme	1
      Disoitl’un	1
      l’autre	1
      aux valetz	1
      on	1
1)
à utiliser conjointement avec le paramètre schema_property_name
2)
à utiliser conjointement avec le paramètre unit_property_name
public/spec_analec_mesures.txt · Dernière modification: 2019/06/05 15:11 par matthieu.decorde@ens-lyon.fr