Outils pour utilisateurs

Outils du site


public:extensions_beta

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:extensions_beta [2019/05/20 14:15]
slh@ens-lyon.fr
public:extensions_beta [2019/05/21 09:18] (Version actuelle)
matthieu.decorde@ens-lyon.fr
Ligne 27: Ligne 27:
 ======= Annotation ======= ======= Annotation =======
  
-====== ​Annotation avec un modèle Unité-Relation-Schéma (URS======+====== URS ======
  
-===== Installation et Interface d'​annotation ===== +  * [[public:​documentation_extensions:urs|Annotation avec un modèle Unité-Relation-Schéma (URS)]]
- +
-Déjà documenté dans la section ​[[http://​textometrie.ens-lyon.fr/​html/​doc/​manual/​0.7.9/​fr/​manual53.xhtml#​toc285|Annotation avec un modèle Unité-Relation-Schéma (URS) au fil du texte]] du manuel de TXM. +
- +
- +
-===== Paramètres généraux ===== +
- +
-Toutes les commandes URS utilisent des paramètres communs, renseignés en début de formulaire de paramètres. +
- +
-La documentation de chaque commande précise, le cas échéant, les paramètres qui lui sont spécifiques. +
- +
-==== Corpus, Sous-corpus & Partition ==== +
- +
-Toutes les commandes URS s'​appliquent à une sélection de corpus, de sous-corpus ou de partition. +
- +
-Si la sélection est multiple, les commandes produisent un résultat contrastif entre les objets sélectionnés (en tableau, par exemple UnitsIndex) ou bien itèrent sur les objets sélectionnés (par exemple UnitsList). +
- +
-Dans le cas des partitions, les commandes travaillent sur les sous-corpus correspondant à leurs parties. +
- +
-==== Sélection d'​entités URS ==== +
- +
-Les commandes utilisent des paramètres de sélection d'​entités URS généraux : +
-  * la sélection d'​unités (section B) se combine avec celle des schémas (section A) : +
-    * la sélection d'​unités se limite aux unités des schémas sélectionnés quand leurs paramètres de sélection sont présents (si la sélection de schéma ne retourne aucun schéma, aucune unité ne peut être sélectionnée) +
-    * quand la sélection de schémas n'est pas renseignée,​ la sélection d'​unités se fait sur la totalité des unités du corpus +
-  * A) sélection de **schémas** : +
-    * par propriétés : +
-      * la sélection par champs (b) est alternative à la sélection par requête URS (a) (voir la section "​Requêtes URSQL"​) +
-      * a) par une requête URSQL de schéma de la forme TYPE@PROPRIETE=VALEUR +
-         * //​schema_ursql//​ : requête de sélection de schéma (exemple '​CHAINE@REF=Jean.*'​) +
-      * b) par une combinaison de champs (si un des champs n'est pas renseigné alors il est ignoré) : +
-         * //​schema_type//​ : sélection par type (exemple '​CHAINE'​) +
-         * //​schema_property_name//​ : sélection par propriété (exemple '​REF'​) +
-         * //​schema_property_value//​ : expression régulière de sélection de valeurs de propriété (par défaut '​.*'​ pour sélectionner toutes les valeurs. Exemple '​Jean.*'​) +
-    * par longueur : +
-        * //​minimum_schema_size//​ : longueur minimale en unités des schémas à prendre en compte dans le calcul (utile notamment pour filtrer les singletons) +
-        * //​maximum_schema_size//​ : longueur maximale en unités des schémas à prendre en compte dans le calcul +
-  * B) sélection d'​**unités** : +
-    * par propriétés : +
-      * par une requête URSQL d'​unité de la forme TYPE@PROPRIETE=VALEUR +
-        * //​unit_ursql//​ : requête de sélection d'​unité (exemple '​MENTION@CATEGORIE=GN.*'​) +
-      * par une combinaison de champs (si un des champs n'est pas renseigné alors il est ignoré) : +
-        * //​unit_type//​ : sélection par type (exemple '​MENTION'​) +
-        * //​unit_property_name//​ : sélection par propriété (exemple '​CATEGORIE'​) +
-        * //​unit_property_value//​ : expression régulière de sélection de la valeur de la propriété (par défaut '​.*'​ pour sélectionner toutes les valeurs) ​ (exemple '​GN.*'​) +
-    * par position dans les schémas ou dans les structures CQP : si le paramètre '​limit_cql'​ est renseigné, il s'agit de position dans les structures CQP, sinon il s'agit de position dans les schémas +
-      * //​cql_limit//​ : expression CQL désignant les limites de structures à utiliser dans le calcul. L'​expression doit mobiliser une structure disponible dans le corpus et faire un '​expand to' pour obtenir autant d’intervalles que de structures souhaitées +
-        * par exemple : +
-          * %%<​div>​ [] expand to div%%, pour utiliser toutes les limites de div +
-          * %%<​div_type="​livre">​ [] expand to div%%, pour utiliser toutes les limites de div de type "​chapitre"​ +
-          * %%<p> [] expand to p%%, pour utiliser toutes les limites de paragraphes +
-        * //​strict_inclusion//​ : tous les mots de l'​unité doivent se situer au sein de la structure pour qu'​elle puisse être sélectionnée +
-      * //​position//​ : position de l'​unité,​ dans l'​ordre du texte, dans le schéma ou dans la structure +
-        * exemples : +
-          * 1 : première unité du schéma ou bien première unité de la structure +
-          * 2 : deuxième unité du schéma ou bien deuxième unité de la structure +
-          * etc. +
-          * 0 : toutes les unités du schéma ou de la structure (pas de sélection par position) +
-          * -1 : dernière unité du schéma ou bien dernière unité de la structure +
-          * -2 : avant-dernière unité du schéma ou bien avant-dernière unité de la structure +
-          * etc. +
- +
-=== Requêtes URSQL === +
- +
-La sélection sur critères d'​entités URS peut s'​exprimer par le biais d'un certain nombre de champs dans un formulaire de paramètres ou bien par le biais d'une expression unique utilisant le langage de requête URSQL. Le mécanisme de sélection par requêtes URS, plus concis, remplace petit à petit la sélection par champs. +
- +
-Une requête permet de sélectionner **une** entité par son type, par une propriété ou par une valeur de propriété. +
- +
-C'est le contexte d'​utilisation d'une requête URSQL qui détermine le type d'​entité concerné par la sélection : Unité, Schéma ou Relation. Par exemple on trouve des champs de requêtes URSQL pour sélectionner des Unités ou pour sélectionner des Schémas. +
- +
-Une requête est de la forme « TYPE@PROPRIÉTÉ=VALEUR_DE_PROPRIÉTÉ ». +
- +
-Chacun des 3 critères, TYPE, PROPRIÉTÉ et VALEUR_DE_PROPRIÉTÉ (identifiants en majuscules),​ peut être exprimé sous la forme d'une expression régulière. +
- +
-Si on souhaite ignorer un critère de sélection, on ne le renseigne pas.  +
- +
-Syntaxes possibles : +
-  * ""​ (champ vide) : aucun critère de sélection n'est appliqué, tous les éléments sont sélectionnés +
-  * TYPE : on sélectionne tous les éléments d'un certain TYPE +
-  * TYPE@PROPRIÉTÉ : on sélectionne tous les éléments d'un certain TYPE et ayant une certaine PROPRIÉTÉ +
-  * TYPE@PROPRIÉTÉ=VALEUR_DE_PROPRIÉTÉ : on sélectionne tous les éléments d'un certain TYPE et ayant une certaine PROPRIÉTÉ à une certaine VALEUR_DE_PROPRIÉTÉ +
-  * @PROPRIÉTÉ=VALEUR_DE_PROPRIÉTÉ : on sélectionne tous les éléments ayant une certaine PROPRIÉTÉ à une certaine VALEUR_DE_PROPRIÉTÉ (pour n'​importe quel TYPE) +
-  * @PROPRIÉTÉ :  on sélectionne tous les éléments ayant une certaine PROPRIÉTÉ (pour n'​importe quel TYPE) +
-  * =VALEUR_DE_PROPRIÉTÉ : on sélectionne tous les éléments ayant une certaine VALEUR_DE_PROPRIÉTÉ (pour n'​importe quel TYPE et n'​importe quelle PROPRIÉTÉ) +
- +
-Dans la version 1.0 de l'​extension « Annotation URS », seuls les Unités et les Schémas sont pris en compte. +
- +
-==== Propriétés d'​entités à utiliser ==== +
- +
-Les commandes utilisent des paramètres de désignation de propriétés d'​entités URS généraux : +
-  * //​unit_property_display//​ : nom de la propriété d'​unité à utiliser et à afficher +
-    * si la propriété n'​existe pas, certains calculs peuvent utiliser la propriété CQP correspondante des mots recouverts par l'​unité (si elle existe) : +
-    * exemple : +
-      * '​frlemma'​ +
-  * //​schema_property_display//​ : nom de la propriété de schéma à utiliser et à afficher +
- +
-===== Commandes d'​annotation ===== +
- +
-==== ConcordanceToUnit ==== +
- +
-Crée des unités à partir d'un résultat de concordance : +
-  * //​unit_type//​ : le type des unités à créer +
-  * //​create_only_if_new//​ : créé une unité seulement si le pivot n'a pas déjà une annotation +
-  * //prop// : pour régler la propriété des unités créés +
-  * //value// : pour régler la valeur de la propriété des unités créés +
- +
-==== ResetAllAnnotations ==== +
- +
-Supprime **toutes** les annotations du corpus. +
- +
-==== UnitsAnnotate ==== +
- +
-Affecte une propriété+valeur à une sélection d'​éléments URS : +
-  * //​unit_property_to_set//​ : la propriété à modifier +
-  * //​unit_property_value_to_set//​ : la valeur de propriété à affecter +
- +
-==== UnitsDelete ==== +
- +
-Supprime les unités sélectionnées par la requête URSQL. +
- +
-===== Commandes de vérification d'​annotations ===== +
- +
-  * **CheckAnnotationStructureValues** : vérifie que toutes les valeurs de la structure d'​annotation sont utilisées +
-    * //​unit_type//​ : le type d'​unité à vérifier +
-    * //​unit_property//​ : la propriété du type d'​unité à vérifier +
-    * //​pruneUnusedValues//​ : si sélectionné,​ les valeurs non-utilisées seront supprimé de la structure d'​annotation +
-  * **CheckDuplicatesInSchema** : vérifie si des schémas ont des unités avec une valeur de propriété identique +
- +
-===== Commandes d'​exploitation (lister, compter, visualiser...) ===== +
- +
-Un premier jeu de macros a été réalisé pour calculer différentes [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​spec_analec_mesures|mesures]] à l'​occasion de l'​écriture d'un article pour //​[[https://​hal.archives-ouvertes.fr/​hal-01598911/​document|Les chaînes de référence dans les récits brefs en français : Etude diachronique (XIIIe -XVIe s.), Langue française n° 195 (3/​2017)]]//​ (VO, JG, CG, BP). Puis un deuxième jeu de macros a été réalisé pour calculer de nouvelles statistiques et listing d'​éléments URS, en croisant notamment en plus les sélections avec les structures textuelles : +
- +
-  * **UnitsIndex** : index hiérarchique des valeurs d'une propriété de la n-ième unité apparaissant après ou avant les limites d'une structure donnée et ses fréquences : +
-    * paramètres : +
-      * //​unit_property_display//​ : propriété d'​unité à utiliser pour le calcul (par exemple '​CATEGORIE'​) +
-      * //​word_property_display//​ : propriété de mot à utiliser pour le calcul (par exemple '​frpos'​)((si ce paramètre est renseigné, le paramètre unit_property_display est ignoré)) +
-      * //​output_legend//​ : option d'​affichage de la légende de l'​histogramme +
-      * //​output_fmin//​ : option d'​affichage des valeurs dont le nombre d'​apparition dépasse output_fmin +
-      * //​output_histogram//​ : option d'​affichage de l'​histogramme +
-      * //​output_lexicaltable//​ : option de création d'une table lexicale à partir des données de l'​index +
-    * variantes : appliquée à un objet multiple (ensemble de corpus ou sous-corpus,​ ou partition) la macro retourne un tableau de résultats avec une colonne par corpus, sous-corpus ou partie +
-    * remarques : la macro cqp/​ListMatches peut être utile pour vérifier les positions des limites d'un corpus ou d'un sous-corpus +
-  * **UnitsInterDistance** (Distance inter-maillonaire) : Affiche les moyennes, médianes et histogrammes des distances et des cadences entres les unités sélectionnées. La distance est calculée en mots ou en caractères,​ entre le dernier mot d'une unité et le premier mot de la suivante du corpus. +
-  * **UnitsSummary** : affiche le dénombrement d'​unités sélectionnées ainsi que des valeurs de leurs propriétés +
-    * pas de paramètre spécifique +
-  * **UnitsList** : affichage d'​unités sélectionnées avec différents modes d'​affichage +
-    * paramètres : +
-      * //​output_mode//​ : mode d'​affichage des résultats : +
-        * FORMATED (par défaut) : affiche les unités sous la forme : #n°, adresse premier mot - adresse dernier mot, forme de surface, propriétés +
-        * COUNT : affiche seulement le décompte d'​unités +
-        * TABULATED : affiche les informations des unités séparées par des tabulations : #n°, adresse premier mot - adresse dernier mot, forme de surface, propriétés +
-        * CQL : affiche une requête CQL de sélection des mots des unités +
-        * Concordance : affiche la concordance des mots des unités sélectionnées +
-  * **UnitsReferentialDensity** (Densité Référentielle) : rapport entre le nombre d'​unités d'un certain type et le nombre de mots du corpus (en %) ; +
-  * **UnitsStabilityScore** (Score de stabilité) : rapport entre le nombre d'​unités sélectionnées et le nombre de formes différentes représentant ces unités du corpus ;  +
- +
-  * **SchemaLengths** : Affiche la longueur moyenne des schemas sélectionnés et affiche l'​index hiérarchique des longueurs de chaînes du corpus ; +
-  * **SchemasList** : Affiche la liste des schémas sélectionnés avec leurs propriétés et la liste de leurs unités; +
-  * **SchemasProgression** : affiche le graphique de progression des N schémas les plus longs et met en valeur les unités sélectionnées. +
-    * paramètres :  +
-      * //​schema_property_display//​ : propriété à utiliser pour nommer le schéma dans la légende du graphique +
-      * //​struct_name//​ : nom de la structure à affichée sur le graphique de progression +
-      * //​struct_prop//​ : nom de la propriété de structure à affichée sur le graphique de progression +
-      * //​line_width//​ : épaisseur des lignes de la progression +
-      * //​cummulative//​ : affiche la courbe de type cummulative,​ sinon la densité +
-      * //​bande_width//​ : largeur de bande densité de la progression (densité) +
-      * //​show_lines//​ : affiche les lignes de la courbes (cummulative) +
-      * //​show_title//​ : affiche ou pas le titre de la progression +
-      * //​show_legend//​ : affiche ou pas la légende de la progression +
-  * **SchemasSummary** : affiche le dénombrement,​ la longueur (en mots) moyenne, médiane des schémas sélectionnées ainsi que le nombre de valeurs de leurs propriétés +
-    * pas de paramètre spécifique +
- +
-===== Commandes d'​export ===== +
- +
-  * **ExportAs** : exporte un corpus TXM au format binaire "​*.txm"​sous un nom différent. Le corpus peut alors être chargé à côté du premier. +
-  * **ExportToGlozz** : exporte des unités URS d'un certain type au format XML Glozz +
-    * //​unit_type//​ : le type d'​unité à exporter +
-    * //​filename//​ : chemin et nom du fichier XML à créer +
- +
-===== Macros '​Democrat'​ ===== +
- +
-Macros spécifiques à la structure d'​annotation utilisée par le projet ANR DEMOCRAT (chaînes de co-références de mentions). +
- +
-  * Annoter +
-    * Unités +
-      * **Frpos2Categorie** : remonter les propriétés morphosyntaxiques des mots en français moderne dans la propriété CATEGORIE des unités qui les contiennent ; +
-      * **Fropos2Categorie** : remonter les propriétés morphosyntaxiques des mots en ancien français dans la propriété CATEGORIE des unités qui les contiennent ; +
-      * **PROPERanaphoriques** : recatégoriser la valeur '​PRO.PER'​ (pronom personnel) de la propriété CATEGORIE en distinguant les anaphoriques (PRO.PERA) et les déictiques (PRO.PERD) ; +
-      * **AjoutDefinitude** : ajouter la propriété DEFINITUDE de valeurs ‘DEFINI’,​ ‘INDEFINI’,​ ‘DEMONSTRATIF’,​ ‘AMBIGU’ ou  ‘NONE’ aux unités d’un certain type ; +
-      * **Accessibilite** : ajouter la propriété Accessibilité (accessibilité du référent) selon la catégorie morphosyntaxique de la mention ; +
-      * **LongueurDesMentions** : ajouter la propriété LONGUEUR aux unités de type MENTION en calculant leur longueur en mots ; +
-      * **PremierMaillon** : ajouter la propriété NEW à la valeur ‘YES’ aux unités d’un certain type si la valeur de sa propriété REF est rencontrée pour la première fois et ‘NO’ sinon.((ATTENTION : Le champ "​NEW"​ est ajouté dans la structure, mais il n'est pas affiché dans la vue. On ne peut donc pas le corriger... Pour le faire, il faut enregistrer les annotations et relancer TXM. La vue sera alors rafraîchie.)) +
-    * Schémas +
-      * **CreationChaines** : créer des schémas de type '​CHAINE'​ contenant les unités ayant une même valeur de propriété REF ; +
-    * Relations +
-      * **CreationAnaphores** : créer des relations de type '​ANAPHORES'​ à partir des unités '​MENTION'​ de schémas '​CHAINES'​ ; +
-  * Exporter +
-    * **BuildDemocratCorpusVersion1** : préparer le corpus Democrat pour mettre à jour les entêtes TEI avec des statistiques et avec des informations issues d'un fichier tableau paramètre.+
  
 ======= Visualisation de données ======= ======= Visualisation de données =======
public/extensions_beta.1558354516.txt.gz · Dernière modification: 2019/05/20 14:15 par slh@ens-lyon.fr