Ce tutoriel a été rédigé par Gaëtan Moreau en collaboration avec Alexei Lavrentev

Importer via XML-XTZ + CSV

Cette méthode permet d'importer des fichiers XML formant un corpus et de permettre à TXM de prendre en compte la balise XML dénotant les mots dans ces fichiers. Cette balise est en général <w>. Les balises situées à l'intérieur du mot ne sont pas indexées par le moteur de recherche (mais peuvent être exploitées pour l'affichage des éditions).

Si l'on souhaite exploiter dans les requêtes les informations des balises inférieures au mot, il est possible de le faire par des scripts XSLT (eXtensible Stylesheet Language Transformations). Une liste des éléments permettant les opérations possibles est consultable à https://www.w3schools.com/xml/xsl_elementref.asp. On peut soit écrire ses propres scripts, ce qui permet de faire à peu près n'importe quelle transformation, soit utiliser les scripts déjà disponibles.

Néanmoins, on peut se contenter de renseigner les onglets dans la fenêtre d'import si les informations de la balise de segmentation lexicale sont suffisantes.

Préparation du corpus

  1. Créer un dossier
  2. Copier les fichiers XML que vous voulez importer dans le dossier créé
  3. Optionnel : dans ce même dossier, ajoutez le fichier metadata.csv. Assurez-vous bien que le format est correct
  4. Optionnel: si vous utilisez des scripts XSLT, ceux-ci doivent se trouver dans un sous-répertoire nommé “xsl” dans le répertoire contenant vos fichiers XML et le fichier metadata.csv. Voir la spécification de l'import XTZ pour plus de détails.

Import

  1. Cliquez sur “sélectionnez le répertoire des sources” et choisissez le répertoire contenant vos fichier XML.
  2. Donnez le nom et la description de votre choix en faisant attention au format
  3. Choisissez la balise de segmentation lexicale. Par défaut, “w” est rempli, mais vous pouvez choisir n'importe quelle autre balise XML contenue dans vos fichiers XML. Après l'importation, le contenu de cette balise sera le contenu “word”, et les attributs de cette balise seront disponibles dans les options d'affichage. Attention, les informations des balises XML à l'intérieur de l'élément “mot” seront ignorées. Pour les prendre en compte, il faut utiliser des scripts XSLT. Si vous voulez faire une tokenisation au moment de l'import, choisissez les options voulues.
  4. Si vous voulez annoter votre corpus au moment de l'import, cochez la case et choisissez les options voulues. Vous pouvez vérifier les options dans Préférences/TXM/Avancé/TAL/
  5. Si vous voulez construire une édition, choisissez les options voulues.
  6. Choisissez la police d'affichage
  7. L'onglet Commandes permet de choisir la balise délimitant la limite des concordances. La balise text est choisie par défaut.
  8. L'onglet Plans textuels permet:
    • D'exclure une partie du fichier XML (par exemple la description de texte) en mettant la balise appropriée, par exemple teiHeader ou textDesc. Vous pouvez indiquer plusieurs éléments en les séparaant par une virgule (Attention : les éléments listés dans ce champ seront supprimés du corpus)
    • D'exclure une partie du fichier XML du corpus indexé mais de le garder pour la construction de l'éditon en mettant la balise appropriée, par exemple les titres
    • De signaler les notes de bas de page ou autre en mettant la balise appropriée (le contenu des notes n'est pas indexé)
    • De signaler les balises dites “milestones” qui servent de repères (saut de page, de ligne, etc.) et qui sont des balises sans balise fermante mais finissant par un /, par exemple <lb/> (“line break”). TXM ajoutera des propriétés de mots avec l'identifiant du premier milestone précédent, ainsi que la distance du milestone précédent et suivant.
  9. Cliquez sur le texte “Lancer l'import du corpus”.
public/tutoriel_xtz_simple.txt · Dernière modification: 2017/08/04 16:50 par alexei.lavrentev@ens-lyon.fr