Outils pour utilisateurs

Outils du site


public:upr_irht_oriflamms:recette_v3

Version 3 de la Recette du développement Oriflamms dans TXM

Installation de TXM

  • Lancer une première fois TXM pour finir l'installation. Puis re-lancer TXM.
  • Installer la mise à jour TXM 0.7.8 Alpha Oriflamms v3 :
    • télécharger l'archive https://goo.gl/Q8YE9m
    • décompresser l'archive
    • dans TXM, utiliser le menu “Fichier / Ajouter une extension tierce”
    • Cliquer sur Ajouter…
      • Cliquer sur Local
      • Sélectionner le dossier “txm-update-0.7.8-alpha-oriflamms-v3” créé lors de la décompression de l'archive
      • Cliquer sur OK
    • Décocher la case “Regrouper les éléments par catégorie”
    • Cliquer sur le bouton “Sélectionner tout”
    • Cliquer sur le bouton “Terminer” et suivre les instructions de l'assistant
  • Installer le paquet de macros Oriflamms
    • télécharger l'archive https://goo.gl/219Vqh
    • décompresser l'archive
    • copier le dossier “oriflamms” dans $USERDIR/TXM/scripts/macro/org/txm/macro

Récupération des corpus à utiliser pour la recette

Création d'un projet Oriflamms

  • Dans TXM, ouvrir la Vue Macro
    • Menu Affichage –> Vues –> Macro
    • Un onglet Macro s'ouvre au-dessous de la liste des corpus
  • Si aucune macro ne s'affiche dans l'onglet, cliquer sur le bouton “Rafraichir”
  • Dans l'onglet, double-cliquer sur “oriflamms”, puis “prepare”, puis sur la macro “TEI2Project” pour lancer son exécution
    • Renseigner ses paramètres pour le corpus “FontenayTest” :
      • xmlFile : indiquer le document source FontenayTest.xml
      • xslFile : indiquer la feuille XSLT de pré-traitement xxx 1)
      • imagesDirectory : indiquer le chemin vers le dossier d'images FontenayTest
    • cliquer sur “Exécution”
  • le projet Oriflamms2) résultant correspond au dossier FontenayTest situé à côté du document source FontenayTest.xml

On peut répéter l'opération de lancement de la macro TEI2Project pour créer le projet Oriflamms des corpus “mss-dates” et “qgraal_cm” :

  • documents : mss-dates.xml et qgraal_cm.xml
  • feuilles XSLT : [userDir]/TXM/scripts/macro/org/txm/macro/oriflamms/prepare/oriflamms-convert-mss-dates-oriflammsxml.xsl et [userDir]/TXM/scripts/macro/org/txm/macro/oriflamms/prepare/oriflamms-convert-graalc-oriflammsxml.xsl respectivement
  • dossier d'images : mss-dates et graal

Enfin on peut ouvrir les projets avec le logiciel Oriflamms (version 0.5.10) pour confirmer le bon formatage.

Transformation d'un projet Oriflamms pour importation dans TXM

  • Dans TXM, ouvrir la Vue Macro
    • Menu Affichage –> Vues –> Macro
    • Un onglet Macro s'ouvre au-dessous de la liste des corpus
  • Si aucune macro ne s'affiche dans l'onglet, cliquer sur le bouton “Rafraichir”
  • Dans l'onglet, double-cliquer sur “oriflamms”, puis “prepare”, puis “Project2XTZ” pour lancer son exécution
    • Renseigner son paramètre :
      • projectDir : indiquer le dossier du projet Oriflamms à traiter FontenayTest
    • cliquer sur “Exécution”
  • le résultat est enregistré dans un sous-dossier FontenayTest/txm
  • ses sous-dossiers peuvent être utilisés comme dossier source pour le module d'import XTZ+CSV de TXM 0.7.8 (voir étape suivante)

On peut répéter l'opération de transformation pour les projets “mss-dates” et “qgraal_cm” :

  • dossiers de projets Oriflamms à traiter :
    • mss-dates
    • qgraal_cm

Importation dans TXM d'un corpus tokenisé par mot

  • Dans TXM, lancer la commande du menu 'Fichier / Importer / XML-XTZ + CSV'
  • Cliquer sur “Sélectionner le répertoire des sources”
  • Indiquer le chemin du dossier FontenayTest/txm/FontenayTest-w
  • Si la police "Junicode" n'est pas installée, cliquer sur l'onglet “Police d'affichage” et sélectionner une autre police permettant d'afficher les caractères médiévaux.
  • Cliquer sur “Lancer l'import du corpus”
  • Une fois l'import terminé, le corpus FONTENYTESTW apparaît dans la vue Corpus

On peut répéter l'opération pour les corpus “mss-dates” et “qgraal_cm” :

  • dossiers source :
    • mss-dates/txm/mss-dates-w
    • qgraal_cm/txm/qgraal_cm-w

Vérification du corpus importé

  • Sur le corpus FONTENAYTESTW
  • Vérification du nombre de mots :
    • clic gauche sur le nom du corpus dans la vue Corpus –> Le message “MSSDATESW, T = 558” s'affiche en bas à gauche de la fenêtre TXM
  • Vérification du lexique :
    • clic droit sur le nom du corpus, puis sélection de la commande Lexique dans le menu contextuel –> le lexique du texte s'affiche
    • le “et tironien” (“7”) s'affiche à la 3e position avec la fréquence 10
  • Vérification de l'édition synoptique :
    • double-clic sur le “et tironien” dans le lexique –> une concordance s'affiche
    • double-clic sur la 7e ligne de la concordance :
      Int̃fuer̃ religioſi viri quoſ ſupͣ memoravim⁹, ſ; “7” Rib̃t⁹pͥor Fontenetenſiſ ⁊ Gaufrid⁹ monachuſ Clarevalł, Enolduſ ſedelocenſiũ canonicoꝝ decanuſ,
      –> la page de l'édition synoptique contenant l'occurrence du et tironien s'affiche avec à gauche la transcription, où l'occurrence du et tironien est mise en évidence, et à droite l'image du manuscrit correspondante
      • Nouveau V3
        • la transcription (édition “default”) s'affiche avec la police “Junicode”
        • les lignes de la transcription sont numérotées
    • navigation dans l'image :
      • la molette de la souris permet de zoomer
      • le appuyer-glisser avec le bouton gauche de la souris permet de translater l'image
  • Vérification des propriétés de mots :
    • clic droit sur le nom du corpus, puis sélection de la commande Index
    • dans la fenêtre de l'Index, clic gauche sur le bouton Editer, puis double-clic sur les propriétés “characters”, “expan”, “letters-alignable” et “letters-all” qui passent du volet gauche au volet droit
    • clic sur “OK”
    • saisie de la requête [], puis clic sur “Chercher”
    • la ligne 7 affiche : ẽ_e_est_e_est avec la fréquence 5

Importation dans TXM d'un corpus tokenisé par caractères

  • Dans TXM, lancer la commande du menu 'Fichier / Importer / XML-XTZ + CSV'
  • Cliquer sur “Sélectionner le répertoire des sources”
  • Indiquer le chemin du dossier FontenayTest/txm/FonetenayTest-c
  • Cliquer sur “Lancer l'import du corpus”
  • Une fois l'import terminé, le corpus MSSDATESC apparait dans la vue Corpus

On peut répéter l'opération pour les corpus “mss-dates” et “qgraal_cm” :

  • dossiers source :
    • mss-dates/txm/mss-dates-c
    • qgraal_cm/txm/qgraal_cm-c

Vérification du corpus importé

  • Sur le corpus
  • Vérification du nombre de caractères :
    • clic gauche sur le nom du corpus dans la vue Corpus –> Le message “FONTENAYTESTC, T= 2871” s'affiche en bas à gauche de la fenêtre TXM
  • Vérification du lexique :
    • clic droit sur le nom du corpus, puis sélection de la commande Lexique dans le menu contextuel –> le lexique du texte s'affiche
    • le “l barré” (“ł”) s'affiche à la 24e position avec la fréquence 20
  • Vérification de l'édition synoptique :
    • double-clic sur le “l barré” –> une concordance s'affiche
    • double-clic sur la 7e ligne de la concordance :
      q ; p o ſ t a p ł i c a p̃ c e p t a d e c
      –> la page de l'édition synoptique contenant l'occurrence du l barré s'affiche avec à gauche la transcription, où l'occurrence du l barré est mise en évidence, et à droite l'image du manuscrit correspondante
      • Nouveau V3
        • la transcription (édition “default”) s'affiche avec la police “Junicode”
        • les lignes de la transcription sont numérotées
        • il n'y a pas d'espaces blancs entre les lettres d'un mot
    • navigation dans l'image :
      • la molette de la souris permet de zoomer
      • le appuyer-glisser avec le bouton gauche de la souris permet de translater l'image
  • Vérification des propriétés de caractères :
    • clic droit sur le nom du corpus, puis sélection de la commande Index
    • dans la fenêtre de l'Index, clic gauche sur le bouton Editer, puis double-clic sur les propriétés “expan”, “letters-all”, “letters-alignable” et “characters” qui passent du volet gauche au volet droit
    • clic sur “OK”
    • saisie de la requête [], puis clic sur “Chercher”
    • la ligne 22 affiche : ũ_(um)_um_u_u avec la fréquence 21

Calculs sur le corpus

Abréviations et lignes

  • Dans TXM, ouvrir la Vue Macro
    • Menu Affichage –> Vues –> Macro
    • Un onglet Macro s'ouvre au-dessous de la liste des corpus
  • Si aucune macro ne s'affiche dans l'onglet, cliquer sur le bouton “Rafraichir”
  • Sélectionner le corpus FONTEAYTESTW (clic gauche dans la Vue Corpus)
  • Dans l'onglet Macro, double-cliquer sur “oriflamms”, puis “analyse”, puis “AbbreviationsAndLines”
    • spécifier le chemin et le nom du fichier (.tsv) dans lequel les résultats seront enregistrés
    • indiquer le nombre de mots de début de ligne : 3
    • indiquer le nombre de mots de fin de ligne : 5
    • cliquer sur “Exécution”
  • le résultat est enregistré dans le fichier indiqué dans la fenêtre de paramétrage
text_id	pb_id	cb_id	lb_id	line part	Nabbr	NcharAbbr	total	%=NcharAbbr/Ntotal
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_1	s	1	1	13	7.6923076923076925
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_1	m	4	14	51	27.45098039215686
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_1	e	4	5	36	13.88888888888889
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_2	s	1	1	25	4.0
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_2	m	3	5	46	10.869565217391305
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_2	e	0	0	19	0.0

Abréviations et sémantique

  • Dans TXM, ouvrir la Vue Macro
    • Menu Affichage –> Vues –> Macro
    • Un onglet Macro s'ouvre au-dessous de la liste des corpus
  • Si aucune macro ne s'affiche dans l'onglet, cliquer sur le bouton “Rafraichir”
  • Sélectionner le corpus FONTENAYTESTW (clic gauche dans la Vue Corpus)
  • Dans l'onglet Macro, double-cliquer sur “oriflamms”, puis “analyse”, puis “AbbreviationsAndSemantic”
    • spécifier le chemin et le nom du fichier (.tsv) dans lequel les résultats seront enregistrés
    • sélectionner dans la liste les entités que l'on veut sonder : persname et placename
      • utiliser Ctrl + clic pour sélectionner les deux entités
      • les entités sélectionnées s'affichent dans le champ correspondant, séparées par une virgule. Cliquer dessus pour valider la sélection
    • cliquer sur “Exécution”
  • le résultat est enregistré dans le fichier indiqué dans la fenêtre de paramétrage
text_id	pb_id	cb_id	lb_id	entity	Nabbr	NcharAbbr	total	%=NcharAbbr/Ntotal
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_1	persname	4	12	59	0.20338982
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_1	placename	0	0	0	NaN
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_1	#REST	5	8	41	0.19512194
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_2	persname	0	0	0	NaN
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_2	placename	0	0	0	NaN
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_2	#REST	4	6	90	0.06666667
1)
pas besoin d'XSLT de pré-traitement pour le corpus FontenayTest, mais le champ ne doit pas rester vide
2)
Un fichier projet Oriflamms correspond à ce dossier compressé dans une archive ZIP avec une extension '.oriflamms'
public/upr_irht_oriflamms/recette_v3.txt · Dernière modification: 2016/02/15 15:05 par matthieu.decorde@ens-lyon.fr