HowTo - Trucs & Astuces

Sommaire

  • Comment disposer de plus de place pour l'affichage des résultats ?
  • Peut-on afficher simultanément, côte à côte, plusieurs résultats ?
  • Comment fusionner des lignes dans un index ?
  • Comment sont ordonnées les parties d'une partition ?
  • Peut-on choisir l'ordre des parties d'une partition ?
  • Comment ouvrir dans un tableur l'export d'un tableau de résultats de TXM ?
  • Dans mon export de spécificités, je n'ai pas les mêmes valeurs de score que dans le résultat affiché, est-ce normal ?
  • Je ne comprends pas le tableau obtenu par l'export des spécificités (TXM 0.5)
  • Comment puis-je rechercher une occurrence dans l'édition ?
  • Comment, au sein de l'édition, puis-je naviguer dans les structures internes du texte (chapitres, sections…) ?
  • Je veux faire une partition sur un sous-corpus, mais c'est bizarre, certaines parties semblent avoir disparu ?
  • Dans une équation CQL, je voudrais pouvoir tenir compte du contexte englobant

Comment disposer de plus de place pour l'affichage des résultats ?

On peut très simplement profiter de tout l'espace de la fenêtre TXM pour afficher les résultats, en double-cliquant sur le nom de l'onglet : les zones marginales de navigation et de messages se retirent au profit de la zone des résultats. Pour revenir à l'affichage des trois zones, double-cliquer à nouveau sur le nom de l'onglet.

Peut-on afficher simultanément, côte à côte, plusieurs résultats ?

Oui, on utilise pour cela les facilités du gestionnaire de fenêtre (cf. manuel).

Le principe est de cliquer gauche sur l'onglet d'un des résultats concernés, de maintenir cliqué tout en déplaçant le curseur vers le bord de la zone vers lequel on veut afficher ce résultat (par ex. à droite ou en bas), et de relâcher le bouton de la souris quand le curseur devient une flèche épaisse touchant le bord et que se dessine le contour d'une nouvelle zone occupant une moitié de la zone actuelle. La taille des deux zones ainsi obtenues peut être ajustée en déplaçant la frontière (cliquer sur la frontière pour la saisir et la déplacer). La manoeuvre peut être répétée jusqu'à obtention du nombre et de la disposition des zones voulus.

Comment fusionner des lignes dans un index ?

Lorsque l'index a été calculé sur une partition, on peut le convertir en table lexicale (sélectionner l'index dans l'arborescence des corpus et résultats, et lui appliquer la commande “Table lexicale”).L'interface de la table lexicale permet de fusionner des lignes : les fréquences des lignes regroupées sont bien additionnées.

Comment sont ordonnées les parties d'une partition ?

Lorsque l'on crée une partition selon le mode “simple”,

  • en v 0.5 l'ordre des parties est arbitraire, sauf pour l'affichage des résultats des spécificités où il est alphabétique sur le nom des parties (mais donc a priori non concordant avec l'ordre des colonnes de la table de sécificités exportée, ni avec l'abcisse du diagramme en bâtons) ;
  • en v 0.6 l'ordre des parties dépend du type de la métadonnée : en général l'ordre est l'ordre alphabétique sur le nom de la partie, et si l'on a une métadonnée de type “date” l'ordre est chronologique.

Lorsque la partition est créée en mode “assisté” ou “avancé”, l'ordre des parties est celui adopté pour les définir, et non un tri sur le nom donné aux parties.

Peut-on choisir l'ordre des parties d'une partition ?

Lorsque la partition est créée en mode “assisté” ou “avancé”, il suffit de définir les parties dans l'ordre dans lequel on veut qu'elles soient ensuite présentées.

S'il s'agit d'une partition définie en mode “simple”, mais que l'on n'est pas satisfait de l'ordre obtenu, on peut recommencer la construction de la partition en passant par le mode assisté et en définissantles parties dans l'ordre dans lequel on voudrait qu'elles soient. Par exemple, si l'on travaille sur un corpus de discours présidentiels de la Ve république, et que l'on veut que les présidents soient présentés dans l'ordre chronologique de leur présidence et non dans l'ordre alphabétique de leur nom, on crée une partition en mode assisté, sur la métadonnée donnant le locuteur, et on définit la première partie avec (seulement) le locuteur De Gaulle, la deuxième partie avec le locuteur Pompidou, etc.

Comment ouvrir dans un tableur l'export d'un tableau de résultats de TXM ?

1) Pour ouvrir le fichier dans openoffice Calc :

  • nommer le fichier avec l'extension .csv ;
  • double-cliquer dessus pour l'ouvrir avec Calc ;
  • régler si besoin les paramètres d'import :
    • séparateur de champs : point-virgule pour TXM 0.6 (tabulation pour TXM 0.5) ; séparateur de texte : ”
    • type de colonne : texte pour la première colonne (mots), anglais US pour les autres (nombres) (pour éviter que Calc ne reconnaissance abusivement des dates).

2) Pour ouvrir le fichier dans microsoft office Excel :

  • nommer le fichier avec l'extension .txt ;
  • lancer excel ; dans excel, faire Fichier/Ouvrir et sélectionner le fichier (régler “types de fichier” à “Tous les fichiers *.*” pour pouvoir le voir).
  • on peut alors régler les paramètres d'import :
    • étape 1 : fichier “délimité”
    • étape 2 : séparateurs : point-virgule pour TXM 0.6 (tabulation pour TXM 0.5) ; identificateur de texte : ”
    • étape 3 : format des données en colonne : choisir Texte pour la première, et dans les réglages “Avancé” choisir le point comme séparateur de décimales et décocher le “signe moins à la fin des nombres négatifs”.

Dans mon export de spécificités, je n'ai pas les mêmes valeurs de score que dans le résultat affiché, est-ce normal ?

Les valeurs des scores de spécificités sont arrondies pour l'affichage dans TXM, et plus détaillées (décimales et non plus entières) dans l'export.

Je ne comprends pas le tableau obtenu par l'export des spécificités (TXM 0.5)

En TXM 0.5 il y a effectivement plusieurs différences importantes entre le tableau résultat affiché dans TXM et le tableau résultat exporté :

  • l'ordre des colonnes est l'ordre alphabétique pour le résultat dans TXM, mais pour l'export il est arbitraire et est identique à celui des colonnes dans toutes les autres fonctions sur la même partition (résultat d'index, ou affichage de diagramme en bâtons, ou table lexicale, etc.) ;
  • dans le tableau exporté, il n'y a plus la fréquence totale de chaque mot, en revanche il y a l'indication de la fréquence locale dans chaque partie. La fréquence globale peut être rétablie en utilisant les fonctions du tableur pour insérer une colonne additionnant toutes les colonnes des fréquences locales.

Une fois ces difficultés gérées, il peut être pratique aussi de chercher toutes les valeurs “Infinity” et les remplacer par 1000 pour avoir des colonnes homogènes, tout en nombres.

Mais l'export des spécificités est beaucoup plus clair avec la version 0.6 de TXM (on retrouve les mêmes colonnes que dans l'affichage, avec le même ordre, et avec leur nom en entête), cela peut valoir le coup de changer de version de TXM !

Comment puis-je rechercher une occurrence dans l'édition ?

Il y a moyen de naviguer d'une occurrence à la suivante d'un mot donné, ou plus généralement d'un motif CQL donné, en passant par la concordance : * faire la concordance du mot ou motif voulu. * double-cliquer sur une des lignes de la concordance : cela ouvre un onglet avec l'édition du texte positionnée sur l'occurrence concernée, mise en évidence par surlignage (et les autres occurrences positionnées aux alentours sont également surlignées avec une couleur atténuée). * dédoubler l'affichage pour avoir à la fois sous les yeux les lignes de concordance (formant une sorte de sommaire des occurrences disponibles) et l'édition (dans laquelle on veut naviguer).

Pour cela, utiliser le gestionnaire de fenêtres (cf. manuel) : cliquer gauche sur le nom de l'onglet, maintenir cliqué et déplacer le curseur vers la limite basse de la zone d'affichage des résultats ; relâcher le bouton de la souris quand, arrivé près du bord, on voit le curseur qui se transforme en une épaisse flèche noire orthogonale au bord, et le contour d'une nouvelle zone qui se dessine. La fenêtre des résultats est alors divisée en deux zones, au-dessus les lignes de concordance, en dessous la page d'édition, et quand on double-clique sur une ligne de concordance l'édition se positionne au niveau de l'occurrence correspondante. La frontière séparant les deux zones peut être déplacée : on l'attrape en cliquant dessus et en maintenant le bouton appuyé pendant le déplacement, puis en le relâchant lorsque la frontière est à la position souhaitée. On peut ainsi accorder une plus large place à l'édition par exemple.

On peut préférer faire la même chose mais avec la concordance en marge gauche de l'édition (avec une zone d'affichage étroite montrant juste les références de localisation), en divisant verticalement la zone d'affichage des résultats. Pour cela, on déplace l'onglet de l'édition vers la frontière droite de la fenêtre au lieu de la frontière du bas. Il peut être commode aussi de choisir les informations utiles pour composer les références de localisation, par un clic gauche dans les lignes de concordance et en choisissant la fonction “Définir le patron des références”.

Comment, au sein de l'édition, puis-je naviguer dans les structures internes du texte (chapitres, sections...) ?

Les boutons de navigation dans l'édition permettent de passer à la page ou au texte suivant ou précédent. Si l'on veut naviguer plus finement, on peut s'aider de la concordance, cf. question précédente. En particulier, pour se positionner au début de telle ou telle structure, on peut faire la concordance sur le premier mot des structures recherchées ; un double-clic sur les lignes de la concordance permet de naviguer d'un début de structure à l'autre.

Exemples d'application :

1) les textes du corpus sont composés de parties (codées par la structure “div”). Pour trouver tous les débuts de partie, la requête pour la concordance peut être de la forme :

<div>[]
glose de la requête : je cherche le premier mot (quel qu'il soit) juste après le début d'une structure “div”.

2) les textes du corpus sont composés de parties (codées par la structure “div”) rapportées chacune à un thème (codé par la proriété “topic”). On peut voir toutes les parties d'un thème donné (ici “métier”) avec la requête suivante :

<div>[_.div_topic="métier"]
glose de la requête : je cherche le premier mot juste après le début d'une structure “div”, et la propriété “topic” de la structure “div” dans laquelle l'occurrence est incluse vaut “métier”. Les occurrences trouvées sont donc tous les premiers mots de parties thématisées “métier”.

Je veux faire une partition sur un sous-corpus, mais c'est bizarre, certaines parties semblent avoir disparu ?

La commande “Créer une Partition” peut être appliquée à un sous-corpus, mais elle produit un résultat incorrect si la structure utilisée pour définir la partition est au-dessus de la structure utilisée pour définir le sous-corpus. Exemples :

  • sur un sous-corpus des entretiens réalisés auprès d'un interviewé ayant entre 38 et 50 ans, contraster les entretiens sur le sexe (homme / femme) : OK (structures de même niveau : c'est la même, “text”)
  • sur un sous-corpus des entretiens réalisés auprès d'un interviewé ayant entre 38 et 50 ans, contraster les différentes parties des entretiens selon leur thématique : OK (la structure ayant servi à définir le sous-corpus, “text”, contient la structure servant à définir la partition, “div”).
  • sur un sous-corpus constitué des parties d'entretien consacrées à la thématique “métier”, contraster les entretiens suivant la tranche d'âge de l'interviewé : attention (la structure ayant servi à définir le sous-corpus, “div”, est en dessous de la structure servant à définir la partition, “text”).

Ce genre de partition est possible mais en mode avancé, dans le cas décrit les équations à entrer pour définir les différentes parties seraient :

  • partie 1 : [_.text_agecla=“20-32”] expand to div
  • partie 2 : [_.text_agecla=“32-38”] expand to div
  • etc.

Le “expand to div” permet de construire les parties comme un ensemble de div (et nom comme un ensemble de mots), et donc de garder la séquence des mots à l'intérieur des div (pour les requêtes sur des expressions).

Dans une équation CQL, je voudrais pouvoir tenir compte du contexte englobant

1) Dans une équation CQL, on peut situer les occurrences par rapport à la frontière du début ou de la fin d'une structure donnée. Par exemple,

  • la délimitation du début d'une structure div est notée <div>, et
  • la délimitation de la fin d'une structure div est notée </div>.

On peut alors écrire des requêtes CQL comme :

  • <div>[] : le premier mot qui commence une div
  • []<q>[] : le mot juste avant une structure q, et le premier mot qui commence la structure q
  • []</s> : le dernier mot d'une structure s.

2) Le langage CQL permet de prendre en compte les valeurs des propriétés associées à l'occurrence (par exemple sa catégorie grammaticale ou son lemme s'ils ont été définis à l'import), mais aussi les valeurs des propriétés des structures englobant l'occurrence (par exemple les métadonnées associées au texte).

Soit par exemple un corpus formés d'entretiens (structure “text”) portant une information sur la tranche d'âge de la personne interviewée (propriété “agecla”, avec des valeurs de la forme “20-32”, “32-38”, etc.). On peut chercher les occurrences du mot “accord” telles qu'elles soient dans un entretien d'une personne dans la classe d'âge 38-44 ans :

[word="accord" & _.text_age="38-44"]
La syntaxe pour désigner une propriété d'une structure englobante, c'est donc les caractères “souligné” puis “point” (_.), suivis du nom de la structure, suivi d'un souligné (_), suivi du nom de la propriété dans cette structure.

L'exemple précédent est un cas d'école pour illustrer de façon simple la syntaxe CQL : pour le besoin décrit, on aurait en pratique plutôt commencé par faire un sous-corpus des interviews des 38-44 ans, et lancé dessus la requête simple

accord

Mais il y a des cas où la possibilité d'exprimer la contrainte vraiment au niveau de l'occurrence est nécessaire. Par exemple, dans un corpus divisé en parties (structure “div”) portant chacune un thème (propriété “topic”), on localisera les enchaînements entre une partie thématisée “métier” et une partie thématisée “ressources” avec l'équation suivante :

[_.div_topic="métier"]</div><div>[_.div_topic="ressources"]
glose :

  • je cherche deux mots (il y a deux paires de crochets),
  • [_.div_topic=“métier”] ce premier mot est contenu dans une partie thématisée “métier”,
  • </div> c'est le mot qui termine cette partie (c'est le dernier avant la frontière de fin de partie),
  • <div> s'ouvre ensuite une nouvelle partie,
  • [_.div_topic=“ressources”] le deuxième mot est contenu dans une partie thématisée “ressources”.
public/howto.txt · Dernière modification: 2012/05/18 19:22 par benedicte.pincemin@ens-lyon.fr