Outils pour utilisateurs

Outils du site


public:upr_irht_oriflamms:recette_v5

Version 5 de la Recette du développement Oriflamms dans TXM

Installation de TXM

  • Lancer une première fois TXM pour finir l'installation. Puis re-lancer TXM.
  • Installer la mise à jour TXM 0.7.8 Alpha Oriflamms v5 :
    • dans TXM, utiliser le menu “Fichier / Ajouter une extension tierce”
    • Cliquer sur Ajouter…
      • Dans le champ “Nom”, mettre “Oriflamms”
      • Dans le champ “Emplacement”, mettre "http://textometrie.ens-lyon.fr/dist/oriflamms"
      • Cliquer sur OK
    • Utiliser le menu “Fichier / Vérifier les mises à jour”
    • La mise à jour se lance et devrait trouver la mise à jour “TXM 0.7.8.201607200956”

Récupération des corpus à utiliser pour la recette

Création d'un projet Oriflamms

Nous allons d'abord produire un projet Oriflamms, à partir des fichiers source, importable dans le logiciel Oriflamms.

  • Dans TXM,
    • Sélectionner le menu Oriflamms –> TEI2Project
    • Renseigner ses paramètres pour le corpus qgraal_cmTest :
      • xmlFile : indiquer le document source qgraal_cmTest.xml
      • xslFile : indiquer la feuille XSLT de pré-traitement oriflamms-convert-graalc-oriflammsxml.xsl
      • imagesDirectory : indiquer le chemin vers le dossier d'images qgraal_cmTest
    • cliquer sur “Exécution”
  • le projet Oriflamms 3) résultant correspond au dossier qgraal_cmTest situé à côté du document source qgraal_cmTest.xml

On peut répéter l'opération de lancement de la macro TEI2Project pour créer le projet Oriflamms des corpus “FontenayTest”4), “mss-dates” et “qgraal_cm” :

  • documents : FontenayTest.xml, mss-dates.xml et qgraal_cm.xml
  • feuilles XSLT : xxx (aucune feuille XSLT pour FontenayTest, mais le champ du formulaire ne doit pas rester vide), [installDir]/TXM/TXM/plugins/Oriflamms_xxx/res/oriflamms-convert-mss-dates-oriflammsxml.xsl et [installDir]/TXM/TXM/plugins/Oriflamms_xxx/res/oriflamms-convert-graalc-oriflammsxml.xsl respectivement
  • dossier d'images : FontenayTest, mss-dates et graal

Enfin on peut ouvrir les projets avec le logiciel Oriflamms (version 0.6.2) pour confirmer le bon formatage.

Transformation d'un projet Oriflamms pour importation dans TXM

TXM n'importe pas un projet Oriflamms directement. Il faut au préalable produire une version des sources compatible avec le module d'import XTZ+CSV de TXM. Deux versions du corpus sont produites : une version destinée à l'import au niveau des mots, l'autre pour l'import au niveau des lettres.

  • Dans TXM,
    • Sélectionner le menu Oriflamms –> Project2XTZ
    • Renseigner son paramètre :
      • projectDir : indiquer le dossier du projet Oriflamms à traiter qgraal_cmTest
    • cliquer sur “Exécution”
  • le résultat est enregistré dans un sous-dossier qgraal_cmTest/txm
  • ses sous-dossiers peuvent être utilisés comme dossier source pour le module d'import XTZ+CSV de TXM 0.7.8 (voir étape suivante)

On peut répéter l'opération de transformation pour les projets “FontenayTest”5), “mss-dates” et “qgraal_cm” :

  • dossiers de projets Oriflamms à traiter :
    • FontenayTest
    • mss-dates
    • qgraal_cm

Importation dans TXM d'un corpus tokenisé par mot

  • Dans TXM, lancer la commande du menu 'Fichier / Importer / XML-XTZ + CSV'
  • Cliquer sur “Sélectionner le répertoire des sources”
  • Indiquer le chemin du dossier qgraal_cmTest/txm/qgraal_cmTest-w
  • Si la police "Junicode" n'est pas installée, cliquer sur l'onglet “Police d'affichage” et sélectionner une autre police permettant d'afficher les caractères médiévaux.
  • Cliquer sur “Lancer l'import du corpus”
  • Une fois l'import terminé, le corpus QGRAALCMTESTW apparaît dans la vue Corpus

On peut répéter l'opération pour les corpus “FontenayTest”, “mss-dates” et “qgraal_cm” :

  • dossiers source :
    • FontenayTest/txm/FontenayTest-w
    • mss-dates/txm/mss-dates-w
    • qgraal_cm/txm/qgraal_cm-w

Vérification du corpus importé

Vérification de la cohérence du corpus importé.

  • Sur le corpus QGRAALCMTESTW
  • Vérification du nombre de mots :
    • clic gauche sur le nom du corpus dans la vue Corpus –> Le message “QGRAALCMTESTW, T = 4081” s'affiche en bas à gauche de la fenêtre TXM
  • Vérification du lexique :
    • clic droit sur le nom du corpus, puis sélection de la commande Lexique dans le menu contextuel –> le lexique du texte s'affiche
    • le “et tironien” (“7”) s'affiche à la 2e position avec la fréquence 142
  • Vérification de l'édition synoptique :
    • double-clic sur le “et tironien” dans le lexique –> une concordance s'affiche
    • double-clic sur la 7e ligne de la concordance :
      il mete la ſele en ſon cheval. “7” li apoꝛt 22ſeſ armeſ. 7 cil ſi fet tout maintenant.
      –> la page de l'édition synoptique contenant l'occurrence du et tironien s'affiche avec à gauche la transcription, où l'occurrence du et tironien est mise en évidence, et à droite l'image du manuscrit correspondante
      • la transcription (édition “default”) s'affiche avec la police “Junicode”
      • les lignes de la transcription sont numérotées
    • navigation dans l'image :
      • la molette de la souris permet de zoomer
      • le appuyer-glisser avec le bouton gauche de la souris permet de translater l'image
  • Vérification des propriétés de mots :
    • clic droit sur le nom du corpus, puis sélection de la commande Index
    • dans la fenêtre de l'Index, clic gauche sur le bouton Editer, puis double-clic sur les propriétés “characters”, “expan”, “letters-alignable” et “letters-all” qui passent du volet gauche au volet droit
    • clic sur “OK”
    • saisie de la requête [], puis clic sur “Chercher”
    • la ligne 7 affiche : 7_7_(et)__et avec la fréquence 133

Importation dans TXM d'un corpus tokenisé par caractères

  • Dans TXM, lancer la commande du menu 'Fichier / Importer / XML-XTZ + CSV'
  • Cliquer sur “Sélectionner le répertoire des sources”
  • Indiquer le chemin du dossier qgraal_cmTest/txm/qgraal_cmTest-c
  • Cliquer sur “Lancer l'import du corpus”
  • Une fois l'import terminé, le corpus QGRAALCMTESTC apparait dans la vue Corpus

On peut répéter l'opération pour les corpus “FontenayTest”, “mss-dates” et “qgraal_cm” :

  • dossiers source :
    • FontenayTest/txm/FontenayTest-c
    • mss-dates/txm/mss-dates-c
    • qgraal_cm/txm/qgraal_cm-c

Vérification du corpus importé

Vérification de la cohérence du corpus importé.

  • Sur le corpus
  • Vérification du nombre de caractères :
    • clic gauche sur le nom du corpus dans la vue Corpus –> Le message “QGRAALCMTESTC, T = 13961” s'affiche en bas à gauche de la fenêtre TXM
  • Vérification du lexique :
    • clic droit sur le nom du corpus, puis sélection de la commande Lexique dans le menu contextuel –> le lexique du texte s'affiche
    • le “et tironien barré” (“7”) s'affiche à la 22e position avec la fréquence 142
  • Vérification de l'édition synoptique :
    • double-clic sur le “et tironien barré” –> une concordance s'affiche
    • double-clic sur la 7e ligne de la concordance :
      n c h e v a l . 7 l i a p o ꝛ t ſ e ſ a r
      –> la page de l'édition synoptique contenant l'occurrence du et tironien s'affiche avec à gauche la transcription, où l'occurrence du et tironien est mise en évidence, et à droite l'image du manuscrit correspondante
      • la transcription (édition “default”) s'affiche avec la police “Junicode”
      • les lignes de la transcription sont numérotées
      • il n'y a pas d'espaces blancs entre les lettres d'un mot
    • navigation dans l'image :
      • la molette de la souris permet de zoomer
      • le appuyer-glisser avec le bouton gauche de la souris permet de translater l'image
  • Vérification des propriétés de caractères :
    • clic droit sur le nom du corpus, puis sélection de la commande Index
    • dans la fenêtre de l'Index, clic gauche sur le bouton Editer, puis double-clic sur les propriétés “characters”, “expan”, “letters-all” et “letters-alignable” qui passent du volet gauche au volet droit
    • clic sur “OK”
    • saisie de la requête [], puis clic sur “Chercher”
    • la ligne 22 affiche : 7_7_(et)_et_ avec la fréquence 133

Calculs sur le corpus

Abréviations et lignes

  • Dans TXM, sélectionner le menu Oriflamms –> AbbreviationsAndLines
  • Renseigner les paramètres :
    • spécifier le chemin et le nom du fichier (.tsv) dans lequel les résultats seront enregistrés
    • indiquer le nombre de mots de début de ligne : 3
    • indiquer le nombre de mots de fin de ligne : 5
    • cliquer sur “Exécution”
  • le résultat est enregistré dans le fichier indiqué dans la fenêtre de paramétrage
text_id	pb_id	cb_id	lb_id	line part	Nabbr	NcharAbbr	total	%=NcharAbbr/Ntotal
qgraal_cmTest-w	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_9	s	1	1	10	10.0
qgraal_cmTest-w	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_9	m	0	0	0	NaN
qgraal_cmTest-w	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_9	e	0	0	20	0.0
qgraal_cmTest-w	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_10	s	1	1	12	8.333333333333334
qgraal_cmTest-w	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_10	m	0	0	14	0.0
qgraal_cmTest-w	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_10	e	0	0	17	0.0

Abréviations et sémantique

Pour tester cette macro, il faut travailler sur le corpus FONTENAYTESTW qui contient des balises <persName> et <placeName>.

  • Dans TXM, sélectionner le menu Oriflamms –> AbbreviationsAndSemantic
  • Renseigner les paramètres :
    • spécifier le chemin et le nom du fichier (.tsv) dans lequel les résultats seront enregistrés
    • sélectionner dans la liste les entités que l'on veut sonder : persname et placename
      • utiliser Ctrl + clic pour sélectionner les deux entités
      • les entités sélectionnées s'affichent dans le champ correspondant, séparées par une virgule. Cliquer dessus pour valider la sélection
    • cliquer sur “Exécution”
  • le résultat est enregistré dans le fichier indiqué dans la fenêtre de paramétrage
text_id	pb_id	cb_id	lb_id	entity	Nabbr	NcharAbbr	total	%=NcharAbbr/Ntotal
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_1	persname	4	12	59	0.20338982
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_1	placename	0	0	0	NaN
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_1	#REST	5	8	41	0.19512194
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_2	persname	0	0	0	NaN
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_2	placename	0	0	0	NaN
FontenayTest-w	surf_FontenayTest_FRAD021_15_H_17_0003	col_pb_Fontenay_1_1	line_pb_Fontenay_1_1_2	#REST	4	6	90	0.06666667

Allographes

  • Dans TXM, sélectionner le menu Oriflamms –> Allographs
  • Renseigner les paramètres :
    • spécifier le chemin et le nom du fichier (.tsv) dans lequel les résultats seront enregistrés
    • saisir la requête CQL dans le champ “Query” : []
    • saisir le signe (graphème) à analsyer : s
    • saisir les allographes à compter (expression régulière) : .
    • cliquer sur “Exécution”
  • le résultat est enregistré dans le fichier indiqué dans la fenêtre de paramétrage
text_id	pb_id	cb_id	lb_id	sign	char	count	%/sign
qgraal_cmTest-c_surf_qgraal_cmTest_lyonbm_pa77-160	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_9	s	ſ	2	1.0
qgraal_cmTest-c_surf_qgraal_cmTest_lyonbm_pa77-160	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_10	s	ſ	2	1.0
qgraal_cmTest-c_surf_qgraal_cmTest_lyonbm_pa77-160	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_11	s	ſ	3	1.0
qgraal_cmTest-c_surf_qgraal_cmTest_lyonbm_pa77-160	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_12	s	ſ	4	1.0
qgraal_cmTest-c_surf_qgraal_cmTest_lyonbm_pa77-160	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_13	s	S	1	0.33333334
qgraal_cmTest-c_surf_qgraal_cmTest_lyonbm_pa77-160	surf_qgraal_cmTest_lyonbm_pa77-160	col_160a	line_col_160a_13	s	ſ	2	0.6666667
1)
l'essentiel de la recette est réalisé avec ce corpus
2)
ce corpus est nécessaire pour faire les tests de la section 'Abréviations et sémantique'
3)
Un fichier projet Oriflamms correspond à ce dossier compressé dans une archive ZIP avec une extension '.oriflamms'
4)
il est nécessaire de produire ce projet Oriflamms pour faire les tests de la section 'Abréviations et sémantique'
5)
il est nécessaire d'adapter ce projet Oriflamms pour l'import dans TXM pour faire les tests de la section 'Abréviations et sémantique'
public/upr_irht_oriflamms/recette_v5.txt · Dernière modification: 2016/07/20 13:31 par alexei.lavrentev@ens-lyon.fr