Cette page sert au suivi des projets de l'UPR IRHT mobilisant TXM.

Dans la mesure où cette page est actuellement publique, il est recommandé de veiller à maintenir un niveau d'anonymat raisonnable. (merci de nous contacter si cette page doit évoluer vers plus de confidentialité)

Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.

Analyse d'un corpus de textes encodés d'un point de vue paléographique

Descriptif du projet

Projet suivi avec KM à la suite de l'atelier de formation TXM du 22/09/2015 : analyser des textes potentiellement encodés au niveau des lettres/allographes ou mots, projets Oriflamms et ECMEN (voir http://oriflamms.hypotheses.org.

Un premier corpus, 'CMD-FR 1-622-20152309_TXM.xml', sert de tests, a priori non encodé au niveau des lettres.

Importation du corpus dans TXM

Le corpus de textes est composé d'un seul fichier encodé en TEI P5:

  • il va falloir éclater avec une front XSL le fichier pour que les sources correspondent à l'architecture de sources nécessaire pour TXM (un fichier → un texte)
  • il va falloir identifier les métadonnées utiles pour chaque texte et les exporter vers un fichier metadata.csv
  • le fichier déclare et a besoin de 2 fichiers de DTD pour des entités (abbreviations.dtd, abbreviations_french.dtd):
    • il faut les déposer dans le répertoire des sources et dans le répertoire personnel pour l'instant (pour que les parseurs XML de TXM les voient correctement)



Retour à la liste des projets.

OriFlamms

Tickets de développement dans TXM : http://forge.cbp.ens-lyon.fr/redmine/projects/txm/roadmap

Chantier A : analyse au niveau du mot

production d'un corpus de séquences de mots test

(soit Graal avec ses annotations, soit Fontenay avec placeName, persName, roleName)

État actuel des corpus :

  • Graal
  • Fontenay

import de ce corpus dans TXM

  1. lister les manipulations qu'aujourd'hui Alexis fait pour importer un corpus dans TXM
    • MD: principalement des manipulations pour modifier les éditions actuellement produite ?
    • MD: est-ce-que les devs récents de l'import XTZ peuvent aider à répondre ?
  2. voir comment automatiser les manipulations dans un import TXM

formulation de manipulations dans TXM

Pour chaque question de recherche, lister les manipulations réalisées dans TXM 0.7.7

questions : https://gestion-projets.irht.cnrs.fr/projects/oriflamms/wiki/Sc%C3%A9narios_d%27utilisation MD : classer les questions par chantier ?

discussion sur la façon d'améliorer

Si besoin, voir ensemble comment améliorer TXM 0.7.7 pour rendre les manipulations plus ergonomiques pour les questions Oriflamms

production des spécifications de développement

correspondants et des recettes montrant que les développements correspondent bien aux spécifications

Chantier B : analyse au niveau du caractère et du mot

1) production d'un corpus de séquences lettres test : Graal: génération d'une source sur Graal facsimilaire pour tokénisation caractères = a) Convertir Graal facsimilaire en format compact universel TEI-compatible; b) tokéniser et créer annotations ⇔ pour fin oct.- déb. novembre.

2) import de ce corpus dans TXM

3) formulation de manipulations dans TXM répondant à des questions de recherche des Scénarios d'utilisation concernant les lettres

4) discussion sur la façon d'améliorer ces manipulations pour simplifier et rendre plus ergonomiques ces manipulations

5) production des spécifications de développement correspondants et des recettes montrant que les développements correspondent bien aux spécifications

Chantier C : exploitation des images alignées dans TXM

Liste des fonctionnalités envisageables, à préciser et préciser la cible.

vue synoptique : images et transcription

un corpus de mots ou un corpus de lettres affiche ses éditions de textes sous la forme d'une vue synoptique image + transcription :

  • la vue synoptique image + transcription pour un corpus de mots existe déjà dans TXM
  • la vue synoptique image + transcription pour un corpus de lettres est à spécifier-développer-recetter (à S-D-R)

Existe déjà, est en fin de prototypage : voir la spécification “Edition synoptoque” du wiki txm-info

retour au texte pour un corpus de séquences de mots

Un double-clic sur une ligne de concordance de mots de catégorie A affiche la vue synoptique de la page contenant l'occurrence et met l'occurence en évidence dans l'image et dans la transcription. Un double-clic sur chaque ligne de concordance permet de naviguer dans l'édition synoptique avec une mise en évidence dans l'image+transcription (à S-D-R)

visualisation d'alignement : transcription vers image

une lettre ou un mot est sélectionné dans la transcription d'une page, une commande (entrée de menu, raccourcis clavier, ctrl-clic) provoque la mise en évidence de la lettre ou du mot dans l'image (à S-D-R)

Exploitation des alignements calculées par l'outil d'alignement

Se réalise dans l'outil Edition de TXM :

  • Sélection d'un ou plusieurs caractères
  • Déclencher la commande “Voir dans le facsimilé”??
  • Affichage de l'édition facsimilé avec highlight de la séquence de caractère sélectionnée

visualisation d'alignement : image vers transcription

une lettre ou un mot est sélectionné dans l'image d'une page, une commande (entrée de menu, raccourcis clavier, ctrl-clic) provoque la mise en évidence de la lettre ou du mot dans la transcription (à S-D-R)

Exploitation des alignements calculées par l'outil d'alignement

Cahiers des charges

Recettes

Spécifications

Documentations

Tutoriels

Questions de recherche et scénarios d'utilisation TXM

Sémantique et système graphique

  • Est-ce que les noms de personnes sont écrits avec une majuscule ?
  • Le nom de diginité (roi, évêque, etc.) et de divinité sont-ils l'équivalent graphique des noms propres ?
  • Est-ce que les noms de personnes sont davantage abrégés que les autres types de mots ?
  • Est-ce que les noms de personnes sont écrits avec des formes spécifiques à l'intérieur d'un même texte ?
  • Les listes de témoins font-elles l'objet de traitements graphiques spécifiques ?
  • Un mot en français dans un texte latin ou inversément est-il plus ou moins abrégé ?
  • Quels mots sont-ils utilisés dans une langue différente ?
  • Les mots équivalents font-ils l'objet de traitement graphique différent selon la langue/époque/lieu (perluette et 'et' tironien)
public/upr_irht_oriflamms.txt · Dernière modification: 2016/04/21 11:20 par matthieu.decorde@ens-lyon.fr