Retours recette 3.3.

Commentaires au fil de la recette

Décomptes généraux

FM : J'utilise TXM 0.7.9

TXM 0.7.9.201801091036 org.txm.rcp null

  1. sélectionner le corpus DEMOCRATLYON3
  2. lancer la macro analec/exploit/UnitsSummary
  • laisser tous les champs vides et les champs numériques à 0
  • Le résultat devrait être :
      Statistiques des unités de DEMOCRATLYON3
      	DEMOCRATLYON3
      Units	9602
      REF	3136
      CATEGORIE	18

FM : OK pour le décompte des unités. Mais j'ai 19 catégories (ce qui s'explique par la suite : PRO.PER est subdivisé en PRO.PERA et PRO.PERD).

A noter aussi la présence du champ “accessibilité” - qui n'est pas mentionné dans la recette.

Nouveau test le 22/05/17 : ok 18 catégories.

  • Résultats obtenus :
        DEMOCRATLYON3
      Units	9602
      ACCESSIBILITE	4
      REF	3136
      CATEGORIE	19
  1. sélectionner la partition “Textes”
  2. relancer la macro UnitsSummary avec les mêmes paramètres
  • Le résultat devrait être :
  	BossuetDiscours	DiderotEssais	MontesquieuLois
  Units	3600	3042	2960
  REF	445	1400	1354
  CATEGORIE	18	18	18

FM : toujours ok, mais sur 19 catégories.

  • Résultats obtenus :
BossuetDiscours	DiderotEssais	MontesquieuLois
  Units	3600	3042	2960
  ACCESSIBILITE	4	3	3
  REF	445	1400	1354
  CATEGORIE	19	19	19

Index de catégories

  1. sélectionner la partition “Textes”
  2. lancer la macro UnitsIndex avec les paramètres suivants :
  • schema_ursql : CHAINE
  • minimum_schema_size : 0
  • maximum_schema_size : 0
  • unit_ursql : MENTION
  • unit_property_display : CATEGORIE
  • limit_cql :
  • strict_inclusion : true
  • limit_distance : 0
  • output_2D : true
  • output_legend : true
  • output_fmin : 0
  • output_histogram : true
  • output_lexicaltable : false
  • debug : OFF

FM : + 2 autres paramètres : unit_property_display ( vide )+ limit_distance_in_schema ( 0 )

  • le résultat devrait être :
  CATEGORIE	BossuetDiscours	DiderotEssais	MontesquieuLois
  DET.POS	263	199	147
  GN.DEF	1209	1094	1120
  GN.DEM	193	125	140
  GN.IND	126	308	304
  GN.INT	3	9	3
  GN.NAM	722	66	80
  GN.NU	50	126	101
  GN.NUM	36	26	21
  GN.POS	260	207	162
  PRO.ADV	31	51	64
  PRO.DEM	22	58	47
  PRO.IND	11	14	17
  PRO.INT	1	16	8
  PRO.NUM	3	3	11
  PRO.PER	400	481	526
  PRO.POS	2	4	5
  PRO.REL	226	182	191
  SUJ.ZERO	42	73	13

FM: OK. J'ai les mêmes résultats. Mais les PRO.PER sont divisés en 2 groupes : PROPERA et PROPERD, comme indiqué ci-dessous.

  PRO.PERA	348	299	472
  PRO.PERD	52	182	54
  • Vue graphique du résultat :

FM: OK (avec précision des différents PRO.PER)

  1. sélectionner la partition “Textes”
  2. lancer la macro UnitsIndex avec les paramètres suivants3) :
  • schema_ursql : CHAINE
  • minimum_schema_size : 3
  • maximum_schema_size : 999999
  • unit_ursql : MENTION
  • unit_property_display : CATEGORIE
  • limit_cql : <div>[]expand to div
  • strict_inclusion : true
  • limit_distance : 1
  • output_2D : true
  • output_legend : true
  • output_fmin : 0
  • output_histogram : true
  • output_lexicaltable : false
  • debug : OFF
  1. le résultat devrait être :
  CATEGORIE	BossuetDiscours	DiderotEssais	MontesquieuLois
  DET.POS	5	5	0
  GN.DEF	134	160	160
  GN.DEM	9	11	20
  GN.IND	12	48	40
  GN.NAM	170	17	14
  GN.NU	1	15	9
  GN.NUM	5	2	1
  GN.POS	12	16	11
  PRO.ADV	0	1	2
  PRO.DEM	1	2	0
  PRO.IND	1	1	2
  PRO.NUM	0	2	3
  PRO.PER	18	10	11
  PRO.REL	2	0	0
  SUJ.ZERO	0	1	0

FM : Les résultats sont identiques, sauf pour : GN.NAM. J'ai toujours 2 types de PRO.PER, mais l'addition des 2 types est bien égale à PRO.PER (PRO.PER = PRO.PER.A + PRO.PERD).

  GN.NAM	170	16	14
  PRO.PERA	9	3	6
  PRO.PERD	9	7	5
  • Vue graphique du résultat :

FM: OK

Longueurs de structures

  1. sélectionner le corpus DEMOCRATLYON3
  2. lancer la macro analec/exploit/StructuresIndex avec les paramètres suivants :
  • structures : text,div
  • structProperties : id,n
  • query : [frpos=“N.*”]
  • wordProperty : word
  • displayIndex : true
  • Vmax : 20

FM : les résultats diffèrent de ce qui est attendu. Ci-dessous copie de ma console. Le texte de Montesquieu est composé de 11145 mots (et non 11277) Il manque le chapitre 4. Div 04 - annoncé comme tronqué dans la recette - n'est pas présent dans les résultats de ma console.

Idem avec le nouveau test le 22/05/17 : il manque Div 04.

  Exécution de StructuresIndexMacro.groovy
  WORKING WITH [DEMOCRATLYON3]
  Corpus = DEMOCRATLYON3
  Corpus QualifiedCqpId = DEMOCRATLYON3
  MainCorpus = DEMOCRATLYON3
  Corpus QualifiedCqpId = DEMOCRATLYON3
  struct	prop	start	end	T	t	v	fmin	fmax	index
  text	BossuetDiscours	0	11741	11741	3096	1150	1	74	[temps, Dieu, fils, roy, rois, royaume, peuple, histoire, mesme, ans, medes,         nom, luy, empire, ville, premier, Babylone, Egypte, enfans, Moïse]
  div	01	0	246	246	55	46	1	3	[religion, choses, premierement, évenemens, temps, suite, empires, affaires, DESSEIN,     PREMIER, DISCOURS, Aprés, dessein, ouvrage, ay, trois, utilité, espere, epoques, mots]
  div	02	247	1066	819	226	157	1	8	[genre, Dieu, hommes, premiere, homme, enfans, arts, terre, fondement, innocence, monde, Noé, deluge, temps, 1, abord, image, histoire, mesme, puissance]
  div	03	1067	1894	827	202	146	1	8	[temps, premier, premiers, hommes, terre, Noé, memoire, toûjours, genre, mesme, estoit, arts, fruits, tour, partage, trois, terres, peuples, egyptiens, Nemrod]
  div	04	1895	3097	1202	336	211	1	11	[Dieu, Egypte, luy, temps, Jacob, pharaon, rois, fils, nom, peuples, peuple, Abraham, enfans, toûjours, douze, freres, Grece, ans, deluge, pere]
  div	05	3098	4218	1120	321	208	1	14	[temps, loy, fils, roy, Moïse, ans, peuple, Dieu, ville, mesme, luy, fondement, Aaron, mort, histoire, Josué, livres, Ninus, empire, tyrannie]
  div	06	4219	4833	614	176	131	1	8	[temps, Dieu, cause, mesme, fils, roy, peuple, enfans, epoque, Troye, poëtes, heros, Priam, Jupiter, gloire, crime, Saül, premier, Athenes, mort]
  div	07	4834	6850	2016	548	342	1	13	[temps, fils, royaume, Dieu, Juda, Israël, roy, ans, Achab, regne, rois, temple, Athalie, pieté, loy, idolatrie, David, prince, Moïse, maison]
  div	08	6851	11741	4890	1232	555	1	23	[medes, rois, roy, temps, royaume, histoire, Babylone, fils, empire, ville, Dieu, nom, assyriens, peuple, Orient, Cyrus, Assyrie, mesme, Cyaxare, histoires]
  text	MontesquieuLois	11742	22887	11145	2133	713	1	94	[loix, gouvernement, peuple, nature, état, 1, vertu, corps, loi, principe, prince, LIVRE, monarchie, droit, PARTIE, démocratie, république, homme, puissance, hommes]
  div	01	11742	14504	2762	513	210	1	48	[loix, rapports, nature, être, rapport, monde, état, êtres, hommes, droit, société, guerre, 1, homme, loi, sentiment, gouvernement, gens, intelligens, règles]
  div	02	14505	18982	4477	866	370	1	35	[peuple, loix, nature, gouvernement, aristocratie, état, loi, démocratie, monarchie, Rome, partie, puissance, république, corps, monarque, suffrage, sénat, affaires, sort, temps]
  div	03	18983	22887	3904	754	352	1	33	[gouvernement, loix, vertu, honneur, principe, prince, état, 1, 3, nature, peuple, LIVRE, force, PARTIE, corps, gouvernemens, monarchie, république, ressort, cesse]
  text	DiderotEssais	22888	33556	10668	2011	903	1	38	[nature, couleur, homme, tableau, lumière, objets, œil, toile, art, effet, corps, artiste, ombre, ombres, deux, peintre, peinture, dessin, couleurs, tête]
  div	01	22899	25908	3009	549	327	1	16	[nature, homme, modèle, figure, deux, école, artiste, chose, âge, figures, dessin, actions, fois, professeur, action, attitude, manière, femme, col, tête]
  div	02	25909	28848	2939	531	307	1	23	[couleur, nature, chair, artiste, toile, art, homme, yeux, œil, couleurs, tableau, harmonie, effet, dessin, palette, organe, ton, coloriste, vie, ami]
  div	03	28849	31669	2820	569	334	1	22	[lumière, corps, ombres, ombre, effet, objets, lumières, toile, œil, scène, nature, art, teinte, loi, soleil, jour, ciel, couleurs, objet, tableau]
  div	04	31670	33556	1886	357	215	1	14	[tableau, objets, habit, distance, peintre, nature, peinture, détails, point, homme, Exemple,     formes, possibles, œil, mesure, père, figure, deux, lumières, lieu]
  [[01, 02, 03, 04, 05, 06, 07, 08], [01, 02, 03], [01, 02, 03, 04]]
  [[246, 819, 827, 1202, 1120, 614, 2016, 4890], [2762, 4477, 3904], [3009, 2939, 2820, 1886]]
  PNG file: /***/TXM/results/txm8294588919681618133.png
  SVG file: /***/TXM/results/txm5966942044074248092.svg
  Error during script execution: org.txm.stat.engine.r.RException: ** Erreur R : "Error in loadNamespace(name) : aucun package nommé ‘svglite’ n'est trouvé
  "
  lors de l'évaluation de :
  df <- data.frame(structure=textDivPropVals1,
               longueur=textDivLengths1)
  p<-ggplot(data=df, aes(x=structure, y=longueur)) +
  geom_bar(stat="identity", fill="steelblue") +
  geom_text(aes(label=longueur), vjust=1.6, color="white", size=3.5) +
  labs(title="DEMOCRATLYON3", x="Structure div", y = "Longueur") +
  theme_minimal()
  ggsave(file="/****/TXM/results/txm5966942044074248092.svg", plot=p)

Visualisation de chaines

  1. sélectionner le corpus DEMOCRATLYON3
  2. supprimer la CHAINE des singletons, de référent “SI”
    1. ouvrir l'édition
    2. démarrer l'annotation des SCHEMA
    3. ouvrir l'interface de recherche
    4. faire une recherche avec le seul critère REF=“SI”
  3. créer le sous-corpus du texte MontesquieuLois et le sélectionner
  4. lancer la macro analec/exploit/SchemasProgression avec les paramètres donnés dans le recette

FM: édition le texte

+ ouvrir le formulaire d'annotation des SCHEMA

+ cliquer sur la loupe (permet d'accéder à l'interface de recherche)

+ faire une recherche avec comme critère REF=“SI”

= 1545 SI

Création sous-corpus = ok

1 schéma résultat avec légende (très volumineuse!) s'ouvre dans un nouvel onglet = ok

Pourquoi la recette mentionne-t-elle l'action : supprimer la CHAINE des singletons, de référent “SI” ?

  1. zoomer sur le début du texte
  2. cliquer sur la première unité de la chaine “les lois politiques et civiles” pour visualiser ses caractéristiques :
    1. sa position dans le corpus : MontesquieuLois, page 22, ligne 20
    2. sa surface textuelle (ses mots) : les loix politiques et civiles
    3. sa catégorie : GN.DEF
    4. etc.

FM: Pour ce qui est des données : RAS. J'ai bien les caractéristiques appropriées.

Mais… on accède pas en un coup d’œil aux caractéristiques d'un point (il faut bouger le graphe pour avoir accès à l'ensemble des infos dans la bulle, bulle très volumineuse) … d'autant plus vrai si la légende est sur plus d'une colonne. Il faut donc penser à n'avoir aucune fenêtre TXM ouverte sous le graphe (mettre la console, le formulaire de recherche, … sur le côté gauche); à ce niveau de la recette, cela permet d'avoir la légende sur une seule colonne par exemple. Comment (et surtout faut-il) aider l'utilisateur pour cela? Et que se passe-t-il si la légende est encore plus encombrante ?

Cette visualisation semble être très gourmande à l'affichage. A plusieurs reprises (surtout si la place réservée au graphe n'est pas optimale), TXM ne répondait plus. Fenêtre grisée, et attente angoissée du retour à la normale :-(

Pour zoomer, j'ai utilisé le raccourci clavier : Ctrl + ”+” OU la molette de ma souris. Il y a une autre solution dans TXM?

Il est possible d'accéder à chaque point du graphe, c'est top. Et pourtant on aurait envie d'un peu plus de convivialité :

  1. pourvoir réduire en un clic la légende
  2. cliquer sur un point ouvre une bulle (avec les caractéristiques de ce point), cliquer à nouveau sur ce point ferme la bulle
  3. un curseur pour zoomer, façon google map (peu utile pour la plupart des utilisateurs… mais pour un certain public peut être utile)

TXM offre peut-être des fonctionnalités du type de celles mentionnées ci-dessus. Je liste simplement ici ce qui m'a un peu gênée pour explorer le graphe.

Ce qui est présent et top : le retour possible en un clic à l'état initial du graphe.

FM : précisions sur test de sélection de points du graphe

  1. clic : sélection exclusive ⇒ le point courant est mise en évidence = OK
  2. SHIFT + clic : sélection étendue ⇒ sélectionne tous les points entre le dernier point sélectionné et le point que l'on vient de cliquer = OK
  3. CTRL + clic ⇒ sélection multiple ⇒ chaque clic ajoute ou supprime un point de la sélection (le supprime s'il est déjà sélectionné) = OK

Glose : les schémas sélectionnés sont affichés et les premières mentions après limite de structure div (les unités sélectionnées) sont mises en évidence par un petit symbole ajouté à la courbe de son schéma. Les premières unités du livre 03 ont été sélectionnées à la main (par Control-clic) pour mettre en évidence leurs propriétés.

FM: … et bien non! :-(

J'ai lancé le script plusieurs fois, réessayé… et je n'ai pas de symbole sur la première mention d'un div. Et là pour récupérer le message de la console avec un graphe aussi grand… et bien ça rame un peu. Mais à priori pas de message d'erreur : _Exécution de SchemasProgressionMacro.groovy Terminé: 32693 ms_

idem avec nouveau test du 22/05/17

Annotation d'unités par sélection

  1. sélectionner le corpus DEMOCRATLYON3
  2. ajouter la propriété “PREMIERMAILLONDIV” aux Unités de type MENTION avec la commande “Éditer la structure d'annotation”
  3. lancer la macro analec/edit/UnitsAnnotate avec les paramètres suivants :
    • schema_ursql : CHAINE
    • minimum_schema_size : 3
    • maximum_schema_size : 999999
    • unit_ursql : MENTION
    • limit_cql : <div> [] expand to div
    • strict_inclusion : true
    • limit_distance : 1
    • unit_property_to_set : PREMIERMAILLONDIV
    • unit_property_value_to_set : true
    • debug : false
  4. ouvrir l'édition et démarrer l'annotation des Unités
  5. ouvrir l'interface de recherche avec le critère de sélection PREMIERMAILLONDIV=true
  6. lancer la recherche et naviguer dans les Unités

FM :

  1. pas de propriété “maximum_schema_size” dans le script groovy
  2. Message erreur au lancement du script :

Exécution de UnitsAnnotateMacro.groovy

Annotate DEMOCRATLYON3…

Error during script execution: groovy.lang.MissingMethodException: No signature of method: static org.txm.macro.analec.AnalecUtils.selectUnitsInSchema() is applicable for argument types: (java.lang.Integer, visuAnalec.donnees.Corpus, org.txm.searchengine.cqp.corpus.MainCorpus, java.lang.String, java.lang.Integer, java.lang.Integer, java.lang.String, org.txm.searchengine.cqp.corpus.query.Query, java.lang.Boolean, java.lang.Integer) values: [0, visuAnalec.donnees.Corpus@6004ecd9, DEMOCRATLYON3, CHAINE, …]

Possible solutions: selectUnitsInSchema(java.lang.Object, visuAnalec.donnees.Corpus, org.txm.searchengine.cqp.corpus.Corpus, java.lang.String, java.lang.Integer, java.lang.Integer, java.lang.String, java.lang.Integer, org.txm.searchengine.cqp.corpus.query.Query, java.lang.Boolean, int)

public/retours/recette_etape_3_3.txt · Dernière modification: 2018/05/30 10:55 par frederique.melanie@ens.fr