Recette étape 1 (FM)

FM, Lattice, 10 janvier 2016

Document de travail / prise de notes

Tout d’abord l’installation de TXM → ok, pas de problème.

>console

Démarrage de TXM 0.7.8 (2017-01-09)...
Chargement de l'extension noname
Chargement de l'extension noname
Updating CWB preferences for CQP version=1.1.0.201701091713
Chargement des sous-corpus et des partitions...Terminé.
Moteur de recherche lancé.
Moteur statistique lancé.connecté.
Post-installing AnalecRCP version=1.0.0.201701091713

Je remets ici les quelques éléments soulignés par Frédéric dans son mail du 9 janvier :

  1. tester l'utilisabilité de TXM pour ce qui concerne les toutes premières étapes de Democrat : import d'un texte brut (bloc de 10000 mots), import d'une structure d'annotation (format GLOZZ), annotation des mentions (avec 2 ou 3 traits, et en tout cas le trait “ref”).
  2. identifier les manques par rapport à ANALEC, comme pour le défaut de mise à jour de la structure des annotations (que j'ai détectée ce matin, mais que j'aurais dû détecter plus tôt…), et nous informer, Serge et moi, de ces manques.
  3. garder en tête les étapes de travail avec TXM, de manière à pouvoir “former” les membres de Democrat du Lattice quand ils passeront d'ANALEC à TXM, ce qui à mon avis devrait arriver à peu près au moment de la réunion de fin janvier, ou dans la foulée. Pour ce point 3, tu peux te synchroniser avec Marine, qui devrait faire de son côté des tests de TXM, mais sans la connaissance d'ANALEC (difficile pour elle d'identifier des manques par rapport à ANALEC qu'elle connaît très peu).

… essayons donc de tester cela…

Le travail a été fait selon infos du site :

Tenter d’annoter mon fichier : Une vie de Maupassant.

Le texte brut est sous : https://sharedocs.huma-num.fr/#/1091/4536/corpus/fichiers_2_textes_bruts

7. charger le corpus dans TXM 

  • importer txt
  • dans un répertoire j’ai placé le texte « FC_NAR_EXT_20-1-Une_vie_PRIS_PAR_FREDERIQUE »
  • lancer l’import

>console

…
Importation terminée : 6 sec (6524 ms)
Updating /home/fmelanie/TXM/corpora/UNEVIETXTBRUT/registry/unevietxtbrut with /home/fmelanie/TXM/corpora/UNEVIETXTBRUT/data/UNEVIETXTBRUT
Moteur de recherche lancé.
TXM est prêt.

Donc import OK.

MD&SLH : Pour info - petit réglage terminologique, en fait la recette de l'étape 1 prévoit normalement seulement un chargement du corpus binaire TXM précis 'PRINCESSE', et pas l'import d'un autre corpus (pour que les retours puissent se faire du point de vue d'un même corpus, car les différences entre corpus peuvent influencer certains tests). Dans le cas présent de cette recette, cela n'a aucune incidence. Pour d'autres tests, cela peut avoir une influence.

9. lui associer la structure d'annotation DEMOCRAT

avec la commande 'Analec > Import Glozz model'

= fichier democrat.amm

A noter : 'Analec > Import Glozz model'n’est pas disponible à l’ouverture de TXM. Il faut éditer le texte pour que ça le soit. ok.

MD+SLH: as-tu sélectionné ton corpus dans la vue Corpus d'après l'étape 8 de la recette ? Dans TXM, une commande s'applique à partir du menu après avoir sélectionné un corpus, ou bien à partir du menu contextuel par clic droit sur le corpus. L'ouverture de l'édition du corpus ne permet pas l'usage de cette commande (c'est parce que le corpus avait été sélectionné qu'elle est devenue accessible). Peux tu confirmer que c'est ok ?

FM: oui, lors du test ce jour, si je sélectionne le corpus ça fonctionne. Donc je confirme que c'est ok. (Pourtant, je garde la méchante impression que ça n'était pas le cas…!)

10. lancer une session d'annotation

Petite remarque avant annotation :

si l’utilisateur n’a pas de structure d’annotation entrée (l’utilisateur a sauté étape 9), il y a bien un message dans la console :
You need to import an annotation structure before starting to annotate. Select the edition main corpus (UNEVIETXTBRUT), then call the Analec > Import Structure command

L’utilisateur Analec – et donc ici plutôt le non informaticien, le pro d’un domaine tout autre que l’informatique, un linguiste par exemple ! - n’est pas habitué à lire les messages dans les consoles. Je pense donc qu’il pourrait être bien d’attirer l’attention du néophyte sur l’importance de ce que dit la console. Est-ce qu’il est possible d’imaginer de mettre un peu de rouge (ou autre couleur moins stressante…) dans les alertes. Ce uniquement pour attirer l’œil sur un raté important (?)… Pour les message que je vois passer sur la liste TXM, ça pourrait aussi parfois être utile. Mais c’est un avis très personnel.

Ou pour certaines actions (peut-être celle-ci) ouvrir un bref message dans une fenêtre indépendante : « You need to import an annotation structure before starting to annotate. »

MD&SLH: on va améliorer le test de disponibilité du bouton: si il n'y a pas de structure d'annotation, le bouton est inactif. voir ticket 1991

MD&SLH: il est difficile d'utiliser TXM sans console car il y a régulièrement des messages importants (particulièrement vrai lors des imports, ou lors d'utilisation de requêtes CQL…). C'est notamment pourquoi on a créé la commande 'Affichage > Réinitialiser l'affichage' pour aider les utilisateurs à récupérer leur console qu'ils se sont empressés de fermer à leur arrivée dans TXM. Pour des messages, que l'on considérerait comme bloquant, on peut créer un nouveau comportement qui ouvre une boite d'alerte modale avec un button “OK” (c'est à dire que TXM ne peut rien faire tant qu'on n'a pas cliqué sur OK). ticket 1992

Test d’annotation :

I. Première annotation – à partir d’un texte brut 

- sélectionner la première mention :

- cliquer sur « créer »

- remplir les valeurs

deuxième annotation :

- sélection d’une mention ici le texte « jeanne »

- puis créer

Dans TXM : « Jeanne » devient la mention 1 et la mention 2 est « auteur ».

Comme montré dans la copie d’écran ci-dessus Jeanne est en vert foncé donc sélectionné, et il s’agit de la mention 1.

Si je sélectionne mention 2 :

Comparaison / différences avec Analec :

- ordre des mentions

Dans Analec les mentions sont croissantes au fil du texte :

mention1 = la première du texte / mention n = la dernière

MD&SLH: il y a manifestement un bug dans TXM de l'affichage du numéro d'unité dans la toolbar d'annotation : quand “Guy de Maupassant” est sélectionné, MENTION-2 ne devrait pas être affiché bug #1993. Par contre l'ordre des numéros d'identifiants d'unités dans TXM suit également l'ordre du texte.

Si j’ai envie après coup d’annoter le titre, il deviendra mention2 (« Jeanne » devient mention3.

- ajouter titre comme valeur dans l’interface, ajoute titre comme valeur dans le schéma d’annotation. Supprimer la mention « titre » ne supprime pas la valeur du schéma d’annotation.

A priori c’est aussi ainsi dans TXM. Donc OK.

J’imagine qu’il est prévu que l’annotateur ait accès à sa structure d’annotation dans TXM sous : Analec > edit annotation structure

Equivalent de sous Analec de :

structure > gestion de la structure

Dans Analec, dans cette fenêtre on peut agir sur la structure :

- ajouter une valeur à une propriété (propriété ici = CATEGORIE, avec sa liste de valeurs). On peut aussi faire cela depuis le formulaire d’annotation, comme vu ci-dessus.

- supprimer une valeur (chose que l’on ne peut pas faire depuis le formulaire d’annotation)

- ajouter un type d’unité (chose que l’on ne peut pas faire depuis le formulaire d’annotation)

MD&SLH tous ces comportements sont hérités directement d'Analec

Rangement par ordre alphabétique des étiquettes 

les étiquettes de valeur contenues dans le schéma d’annotation sont données par l’outil dans l’ordre alphabétique, ce qui inclut aussi les nouvelles étiquettes crées.

L’ordre alphabétique est établi dans l’interface d’annotation ET dans l’interface de gestion de la structure (exemple ci-dessus j’ai crée en dernier la valeur Adefinir).

L’ordre alphabétique dans TXM :

… il semble que…

- dans le champ catégorie, il y avait des valeurs dans le fichier d’annotation Glozz. Ces valeurs ne semblent pas être triées alphabétiquement.

MD&SLH: les valeurs n'étaient effectivement pas triées dans TXM mais c'est déjà corrigé par ce ticket #1987

Les valeurs qu’on ajoute… comment sont-elles traitées ?

- dans le champ ref il n’y avait aucune valeur. Les valeurs que je crée, sont triées dans l’ordre alphabétique inversé.

- si je clique n’importe où dans l’éditeur, je n’ai plus de mention spécifique sélectionnée. En revanche toutes mes mentions sont surlignées en jaune, je sais donc ce que j’ai déjà annoté.

Problème d’annotation dans TXM :

- je ne peux pas supprimer la mention1.

Je me suis trompée en annotant je veux supprimer ma dernière annotation (= mention1 pour TXM) : c’est impossible (certainement parce que mention1 est par défaut sélectionnée dans l’interface).

MD&SLH: oui cela est du au bug d'affichage des identifiants d'unité : #1993

- difficulté pour se déplacer entre les mentions annotées

Par exemple :

Les flèches font défiler les mentions mais il faut cliquer sur l’une d’elle pour la sélectionner.

… avec Analec, ces flèches existent mais en plus : - il est possible d’aller d’une mention à l’autre dans le menu déroulant. - de se déplacer par le biais des flèches clavier (haut / bas) dans ce menu.

A noter : je peux utiliser les flèches pour passer d’une valeur à une autre uniquement à l’ouverture du fichier (juste après avoir édité le texte dans TXM)

MD&SLH: nous ne sommes pas encore satisfaits de la liste déroulante.

  • La gestion des focus et des événements clavier #1994
  • Nous avons aussi prévu de l'aide à la navigation, voir par exemple : #1985.
  • Il a déjà quelques raccourcis claviers #1864. D'autres sont prévus comme #1851

II. Enregistrer, et revenir sur le travail commencé

Alors certains des points mentionnés ci-dessus sont résolus.

2 manipulations pour enregistrer et quitter :

1° annotation > « Save annotations » + quitter TXM

message :

they are annotation to save save them : « no »

… par mégarde je mets « no », ou je ferme sauvagement.

→ ouvrir à nouveau TXM

éditer le texte « UNEVIETXTBRUT »

Analec >

console > Selection is not structured: null

… Je suis d’accord, c’est normal. Je l’ai bien mérité !…

MD&SLH: le message “Selection is not structured: null” est un bug #1995

Cela est j’imagine lié au fait que « Analec > save annotation » (dans le menu) n’est pas encore programmé.

MD&SLH: gloups normalement elle est branchée

Dans Analec (comme dans d’autres logiciel d’édition de texte), quand une sauvegarde n’est pas effectuée une petite étoile attire l’attention de l’utilisateur sur ce fait : dans l’interface à côté du nom du fichier, du nom du modèle utilisé, de la vue. Possible dans TXM ?

… mais ça c’est vraiment un détail, pas très important.

MD&SLH: Ce n'est pas un détail. C'est un comportement que l'on fait déjà dans d'autres environnements d'annotation on va le faire pour Analec : #1996

2° « Save annotations » + they are annotation to save save them : « yes »

TXM se ferme

→ ouvrir à nouveau TXM

éditer le texte « UNEVIETXTBRUT »

Tout semble ok. Je n’ai pas à rouvrir une structure d’annotation

Je retrouve directement le « crayon », la possibilité d’annoter.

Cependant, aucune mention n’est sélectionnée dans le texte (pas de vert foncé) mais dans le champ une mention (en orange) semble sélectionné. On ne peut savoir laquelle… pas de possibilité d’agrandir le champ, d’y entrer,…

MD&SLH: on va corriger la largeur du champ pour pouvoir le lire systématiquement : #1997

(C’est dans cette configuration que je peux utiliser les flèches pour aller d’une unité à une autre – surbrillance vert foncée sur chacune). Il semblerait que ce soit la « mention 1 »

MD&SLH: c'est encore le bug d'affichage de la liste des unités

Ordre des mentions…

Ici l’ordre est bien comme dans Analec chronologique (de 1 à n selon qu’on évolue dans le texte.) La mention 1 ne correspond à aucun segment du texte. Mention fantôme.

- rectifier une borne = ok ça fonctionne. Sauf dans ce cas de figure :

Initialement j’avais sélectionné uniquement Jeannettecomme mention. Par erreur de manipulation, j’ai sélectionné les termes et signes précédent, je n’arrive plus à les enlever de la sélection. Problème lié à la présence de l’apostrophe ?

Je peux en revanche sans aucun problème supprimer la mention et sélectionner à nouveau l’élément.

MD&SLH: la rectification d'une unité à un seul mot est problématique. Actuellement nous implémentons la solution 1 de ce ticket #1850 et sommes preneurs de discussions sur d'autres scénarii.

[suite - 17 janvier 2017]

- sélectionner un élément pour l'annoter

Il arrive que le bouton “créer” ne soit pas actif alors même que l'utilisateur a sélectionné un nouvel élément dans le texte. Après quelques tests, il semblerait qu'il faille parfois étendre légèrement la sélection, prendre l'espace avant ou après l'élément par exemple. Ce n'est pas bloquant. Simple message à l'utilisateur.

public/umr_lattice_anr_democrat_recette_etape_1_fm.txt · Dernière modification: 2017/01/17 13:19 par frederique.melanie@ens.fr