Ce tutoriel a été rédigé par Gaëtan Moreau en collaboration avec Alexei Lavrentev
Cette méthode permet d'importer des fichiers XML formant un corpus et de permettre à TXM de prendre en compte la balise XML dénotant les mots dans ces fichiers. Cette balise est en général <w>. Les balises situées à l'intérieur du mot ne sont pas indexées par le moteur de recherche (mais peuvent être exploitées pour l'affichage des éditions).
Si l'on souhaite exploiter dans les requêtes les informations des balises inférieures au mot, il est possible de le faire par des scripts XSLT (eXtensible Stylesheet Language Transformations). Une liste des éléments permettant les opérations possibles est consultable à https://www.w3schools.com/xml/xsl_elementref.asp. On peut soit écrire ses propres scripts, ce qui permet de faire à peu près n'importe quelle transformation, soit utiliser les scripts déjà disponibles.
Néanmoins, on peut se contenter de renseigner les onglets dans la fenêtre d'import si les informations de la balise de segmentation lexicale sont suffisantes.
Créer un dossier
Copier les fichiers
XML que vous voulez importer dans le dossier créé
Optionnel : dans ce même dossier, ajoutez le fichier metadata.csv. Assurez-vous bien que le format est correct
-
pour en savoir plus sur les techniques pour associer des métadonnées aux textes de votre corpus,
consultez cette page
Optionnel: si vous utilisez des scripts
XSLT, ceux-ci doivent se trouver dans un sous-répertoire nommé “xsl” dans le répertoire contenant vos fichiers
XML et le fichier metadata.csv. Voir la
spécification de l'import XTZ pour plus de détails.
Cliquez sur “sélectionnez le répertoire des sources” et choisissez le répertoire contenant vos fichiers
XML.
Donnez le nom et la description de votre choix en faisant attention au format
Choisissez la balise de segmentation lexicale. Par défaut, “w” est rempli, mais vous pouvez choisir n'importe quelle autre balise
XML contenue dans vos fichiers
XML. Après l'importation, le contenu de cette balise sera le contenu “word”, et les attributs de cette balise seront disponibles dans les options d'affichage. Attention, les informations des balises
XML à l'intérieur de l'élément “mot” seront ignorées. Pour les prendre en compte, il faut utiliser des scripts
XSLT. Si vous voulez faire une tokenisation au moment de l'import, choisissez les options voulues.
Si vous voulez annoter votre corpus au moment de l'import, cochez la case et choisissez les options voulues. Vous pouvez vérifier les options dans Préférences/TXM/Avancé/TAL/
Si vous voulez construire une édition, choisissez les options voulues.
Choisissez la police d'affichage
L'onglet Commandes permet de choisir la balise délimitant la limite des concordances. La balise text est choisie par défaut.
L'onglet Plans textuels permet:
D'exclure une partie du fichier
XML (par exemple la description de texte) en mettant la balise appropriée, par exemple teiHeader ou textDesc. Vous pouvez indiquer plusieurs éléments en les séparaant par une virgule (Attention : les éléments listés dans ce champ seront supprimés du corpus)
D'exclure une partie du fichier
XML du corpus indexé mais de le garder pour la construction de l'éditon en mettant la balise appropriée, par exemple les titres
De signaler les notes de bas de page ou autre en mettant la balise appropriée (le contenu des notes n'est pas indexé)
De signaler les balises dites “milestones” qui servent de repères (saut de page, de ligne, etc.) et qui sont des balises sans balise fermante mais finissant par un /, par exemple <lb/> (“line break”). TXM ajoutera des propriétés de mots avec l'identifiant du premier milestone précédent, ainsi que la distance du milestone précédent et suivant.
Cliquez sur le texte “Lancer l'import du corpus”.