Tutoriel d'importation du corpus BVH-Epistemon dans TXM

Ce tutoriel décrit la procédure d'importation dans TXM des documents XML-TEI mis à disposition par les Bibliothèques Virtuelles Humanistes.

Éléments nécessaires :

  1. Documents sources XML-TEI de la base Lien externeBVH-Epistemon
  2. Données pour le renommage des fichiers (document Nommage_Output_TXM.xml)
  3. Feuilles de style XSLT 2.0 (accessibles sur https://sourceforge.net/projects/txm/files/library/xsl/)
    • txm-filter-teibvh-xmlw.xsl
    • txm-filter-teibvh-xmlw-posttok.xsl
    • txm-edition-xmltok-bvh.xsl ou txm-edition-xmltxm-bvh.xsl
    • txm-edition-page-split.xsl
  4. Feuilles de style CSS
    • bvhepistemon2014.css
  5. TXM 0.7.2
    • actuellement, un bug de la version 0.7.5béta empêche un import correct de corpus XML sous certains systèmes d'exploitation
  6. Macro TXM “ExecXSLMacro” (voir la Documentation des Macros pour plus de détails) ou un logiciel permettant d'exécuter des transformations XSLT 2.0

La procédure a été testée sous Windows XP (32 bit) et sous MACOSX 10.6.8.

L'importation se fait en trois phases :

1. Préparation des fichiers et première importation

  1. Placez les documents à importer dans un dossier
  2. Placez dans un autre dossier les feuilles de style
  3. Appliquez la transformation txm-filter-teibvh-xmlw.xsl sur tous les documents sources
  4. Placez les documents issus de la transformation dans un dossier nommé, par exemple, “bvhepistemontemp”
    • le nom du dossier devient le nom du corpus par défaut
  5. Lancez TXM
  6. Dans le menu “Fichier”, sélectionnez la commande “Importer”, puis “XML/w + CSV”
  7. Sélectionnez le dossier source “bvhepistemontemp”
    • vous pouvez copier-coller le chemin du dossier dans le champ “Dossier” après avoir cliqué sur “sélectionnez le répertoire des sources”
    • il n'est pas nécessaire de modifier les paramètres d'importation proposés par défaut
  8. Lancez l'importation
  9. Vous pouvez interrompre l'importation dès que la console en bas de l'écran affiche le message “Building XML-TXM”

2. Correction de la tokenisation et deuxième importation

  1. Modifiez la paramétrage de pagination des éditions TXM :
    • Dans TXM, ouvre l'onglet “File” (à côté de “Corpus”)
    • Ouvrez le dossier <TXMHOME>/sripts/import
    • Double-cliquez sur le fichier xmlLoader.groovy pour l'éditer
    • A la ligne 280, remplacez le chiffre 300 par 99999 (nombre de mots maximum par page d'édition)
      • pour afficher les numéros des lignes, cocher la case correspondante dans les Préférences de TXM (Outils/Preferences/General/Editors/Text Editors)
      • attention, cette modification affectera la pagination automatique de tous les corpus importés avec le module XML/W + CSV
    • sauvegardez le script xmlLoader.groovy avant de le fermer
  2. Récupérez les fichiers tokenisés dans le dossier <TXMHOME>/corpora/bvhepistemontemp/tokenized
    • sous Windows XP le chemin du dossier <TXMHOME> ressemble à ceci : <pre>C:\Documents and Settings\nomutilisateur\TXM</pre>
  3. Placez les fichiers tokenisés dans un nouveau dossier qui portera le nom du corpus définitif, par exemple “bvhepistemon”
  4. Dans TXM, indiquez le nouveau répertoire des sources d'importation
  5. Indiquez le chemin d'accès à la feuille de style “txm-filter-teibvh-xmlw-posttok.xsl” dans l'onglet “Feuille XSL d'entrée”
  6. Vous pouvez cocher la case “Annoter le corpus” dans l'onglet “Langue principale” et sélectionner le modèle linguistique qui convient
    • il n'existe pas de modèle morphosyntaxique adapté pour le français du XVIe siècle
  7. Attendez la fin du processus d'importation et l'apparition du nouveau corpus dans la liste (cela peut prendre entre quelques minutes et quelques heures en fonction du nombre de textes dans le corpus)

3. Production d'éditions personnalisées et mise à jour du corpus binaire

Méthode A

Cette méthode permet d'afficher dans l'édition les annotations morphosyntaxiques automatiques. Elle risque cependant de ne pas aboutir sur des textes volumineux (plusieurs dizaines de Mo au format XML-TXM) en raison de saturation de mémoire. Dans ce cas, utilisez la méthode B.

  1. Récupérez les fichiers annotés dans le dossier <TXMHOME>/corpora/bvhepistemon/txm/BVHEPISTEMON et placez-les dans un dossier temporaire
  2. Appliquez la transformation txm-edition-xmltxm-bvh.xsl sur tous les fichiers
  3. Récupérez les fichiers (XHTML) issus de la transformation
  4. Appliquez la transformation “txm-edition-page-split.xsl” à chaque fichier xhtml
    • les résultats seront enregistrés dans un sous-dossier “default” à côté des documents traités, il y aura 1 fichier par page d'édition TXM
  5. Créez un sous-dossier “css” à l'intérieur du dossier “default”
  6. Copiez dans le dossier “css” l'ensemble des feuilles de style CSS fournies
  7. Ouvrez le dossier <TXMHOME>/corpora/bvhepistemon/html/BVHEPISTEMON et remplacez le sous-dossier “default” que vous y trouverez par le dossier “default” que vous venez de créer
  8. Le corpus BVHEPISTEMON est prêt
  9. Vous pouvez éditer la feuille de style bvhepistemon2014.css afin de personnaliser l'affichage de l'édition dans TXM
    • les balises XML-TEI des documents sources ont été transformées en éléments <span> ou <div> dont la valeur de l'attribut class est construite par concaténation du nom de la balise et des valeurs de ses attributs “type”, “subtype” et “rend” éventuels.

Méthode B

  1. Récupérez les fichiers tokenisés dans le dossier <TXMHOME>/corpora/bvhepistemon/tokenized/ et placez-les dans un dossier temporaire
  2. Appliquez la transformation txm-edition-xmltok-bvh.xsl sur tous les fichiers
  3. Suivez les étapes 3 à 9 de la méthode A

Retours de bugs

  • LBe (2014-01-24) : le texte 1538_Castiglion.xml fait planter la feuille xslt txm-filter-teibvh-xmlw-posttok.xsl (ligne 211) à cause de plusieurs <w> dans un même <sic>
  • LBe (2014-02-20) : De même pour 1544_SannazaroArc.xml, même xslt, (ligne 201)

Production d'édition synoptique (texte et image)

  • Télécharger la macro EditionUpdaterMacro.groovy à partir de https://sourceforge.net/projects/txm/files/software/TXM%20macros/Edition/
  • Récupérer la feuille de style “3-facs-pager.xsl” à partir du dossier SVN BVH TXM/XSLT/4-edition et la copier dans le dossier $USERHOME/TXM/xsl
  • Créer un dossier $USERHOME/TXM/scripts/macro/org/txm/macro/edition et copier la macro dans ce dossier
  • Dans TXM, sélectionner le corpus à mettre à jour
  • Ouvrir la Vue Macro, cliquer sur Edition, puis sur EditionUpdater
  • Dans le formulaire qui s'ouvre, indiquer les paramètres suivants :
    • xslEdition : $USERHOME/TXM/xsl/identity.xsl
    • xslPages : $USERHOME/TXM/xsl/3-facs-pager.xsl
    • editionName : facs
    • useTokenizedDirectory : Oui
  • Cliquer sur “Run”
public/tutoriel_bvhepistemon.txt · Dernière modification: 2016/02/25 19:27 par alexei.lavrentev@ens-lyon.fr