Outils pour utilisateurs

Outils du site


public:specs_hyperliens_commandes:backtotext

Retour au texte

Objectif

Pouvoir revenir à partir de n'importe quel résultat vers l'édition d'un corpus.

L'utilisation la plus courante dans TXM est le retour au texte depuis une ligne de concordance, dans le portail ce rajoute à cette utilisation l'ouverture du portail sur une page d'édition.

Méthode

Chaque commande aura une mise en scène un peu différente.

Commencer par le lien concordance - édition. Dans un premier temps, la concordance peut-être un point de passage obligatoire pour le retour à l'édition. Cette étape peut être une bonne étape intermédiaire avant d'afficher l'édition.

Concordances

Depuis la concordance, cela se traduit par :

  • un double clic sur une ligne de concordance OU depuis le menu contextuel
  • ouvre l'éditeur d'édition à la page qui contient le pivot double-cliqué
  • une mise en évidence du pivot : par coloration
  • une mise en évidence différente des autres pivots : par coloration

Solution

Concordances

TXM 0.7.7

Le pivot est highlighté en rouge et les autres pivots (seulement ceux de la page de concordance courante lors de l'activation du retour) en rouge plus clair. Il y a une petite marge insérée autour des pivot highlighté.

le fichier import.xml contient un index page-identifiant de mot. Les identifiants de mots sont ordonnés par le dernier nombre qu'ils contiennent (ex : w_texte_93 → 93 ; w_texte_1001 → 1001).

On peut donc retrouver une page qui contient un identifiant de mot avec 3 paramètres :

  • le corpus
  • le texte
  • l'identifiant de mot

inconvénient majeur : les index CQP ne sont pas prévu pour stocker ce type d'information.

TXM 0.7.8

Numérotation hiérarchique dans les identifiants de tokens

dans le cas de corpus caractères, nous avons besoin de manipuler des mots dont les identifiants contiennent plusieurs nombres. Par exemple : c_w_P1719_13_5 où 13 est le numéro du mot et 5 le numéro du caractère.

Alors pour comparer 2 identifiants de mots, il ne suffit pas de comparer les derniers nombres. Il faut procéder hiérarchiquement. Dans l'exemple précédent, il faut commencer par le numéro du mot puis le numéro de caractère.

Cette solution est implémentée dans TXM RCP. Elle permet également de contourner le problème retour au texte en cas de re-tokenisation : on veut insérer un token ou couper un token en deux. Dans ce cas le nouveau token (ou la 2e partie du token coupé) reçoit un identifiant suffixé. Par exemple : à partir de

<w xml:id="w_qgraal_cm_2783>enmi</w>

devient

<w xml:id="w_qgraal_cm_2783>en</w>
<w xml:id="w_qgraal_cm_2783_1>mi</w>

Attention, ce mécanisme ne fonctionne pas sur TXM portail 0.6.2

TXM 0.7.9

Gestion de la relation entre les mots sources, les mots indexés et les mots édités

S'affranchir des identifiants de mots en interne et utiliser uniquement la relation d'ordre des mots dans les indexes CQP. Cela évite d'indéxer dans CQP les identifiants. Mais il faut alors s'assurer de la synchronisation parfaite entre les positions CQP, les “positions” des fichiers XML-TXM et les “positions” dans les éditions HTML.

Coupure de mots entre les pages

Ticket associé : https://forge.cbp.ens-lyon.fr/redmine/issues/2250

Actuellement, lorsqu'un mot est coupé par un saut de page, seule la partie initiale est mise en évidence lors du retour au texte. Si un motif de plusieurs mots est situé sur plusieurs pages, tous les mots sont mis en évidence, sauf la fin du mot coupé.

La coupure d'unités lexicales sur plusieurs pages pose un certain nombre de précisions dans la spécification. La plupart des ces questions et réponses est également valable pour les motifs situés sur plusieurs pages.

  • Dans quelle page (ou colonne, etc.) apparaît un mot : là où il commence ou là où il se termine ?
    → La où il commence (pour être cohérent avec l'ancienne pratique de la BFM : le mot est reconstitué sur la ligne de début).
  • Quel numéro de page indiquer dans une référence de concordance : la page du début ou toutes les pages où il se trouve ?
    → La page de début.
  • Quand on fait un retour au texte, doit on aller directement à la page où il commence ou à la page où il se termine ?
    → La page où il commence.
  • Quand on développera la navigation dans les hits de concordance directement depuis l'édition faudra-t-il développer une navigation spécifique aux mots découpés ?
    → Éventuellement (à spécifier).
  • Si on cherche à calculer le nombre moyen de mots par page doit on compter les unités lexicales (en faisant des choix sur le lieu de décompte) ou les morceaux de surface de mots ?
    • À discuter, on peut choisir l'une des options suivantes :
      • compter le mot coupé sur la page (ou la ligne) où il commence (cohérence avec les choix précédents)
      • compter le mot coupé deux fois (là où il commence et là où il finit, cohérence avec le projet Oriflamms)
      • compter 0,5 mot sur chaque page ou encore calculer une proportion plus précise en focntion du nombre de caractères
  • Quand on développera la possibilité de visualiser plusieurs pages d'édition à la fois, devra-t-on highligther toutes les parties d'un mot directement ?
    → Oui
public/specs_hyperliens_commandes/backtotext.txt · Dernière modification: 2018/05/02 10:44 par alexei.lavrentev@ens-lyon.fr