Ce tutoriel a été rédigé par Gaëtan Moreau en collaboration avec Alexei Lavrentev
Cette méthode permet d'importer des fichiers XML formant un corpus et de permettre à TXM de prendre en compte la balise XML dénotant les mots dans ces fichiers. Cette balise est en général <w>. Les balises situées à l'intérieur du mot ne sont pas indexées par le moteur de recherche (mais peuvent être exploitées pour l'affichage des éditions).
Si l'on souhaite exploiter dans les requêtes les informations des balises inférieures au mot, il est possible de le faire par des scripts XSLT (eXtensible Stylesheet Language Transformations). Une liste des éléments permettant les opérations possibles est consultable à https://www.w3schools.com/xml/xsl_elementref.asp. On peut soit écrire ses propres scripts, ce qui permet de faire à peu près n'importe quelle transformation, soit utiliser les scripts déjà disponibles.
Néanmoins, on peut se contenter de renseigner les onglets dans la fenêtre d'import si les informations de la balise de segmentation lexicale sont suffisantes.