Tutoriel de la conversion des fichiers en fichiers compatibles Métopes

L'import avec le module XTZ+CSV

Afin de permettre la bonne interprétation des fichiers XML-TEI post OpenOffice ou post Oxgarage il convient d'utiliser le module d'import XTZ de TXM avec les feuilles de styles XSL adaptées. Ces XSL interprètent, notamment, les signes présents au sein du manuscrit et les transforment en balises. Pour importer un corpus dans TXM via le module d'import XTZ+CSV aller dans le menu “Fichier” puis le sous-menu “Import” et cliquer sur “Module XTZ+CSV”. Une fenêtre de configuration s'affiche. Il faut sélectionner le répertoire contenant les fichiers XML du corpus. Ce même répertoire doit contenir un sous-répertoire où doivent se trouver les XSL nécessaires au résultat souhaité. Avant de lancer l'import du corpus il faut prêter attention aux menus déroulants situés en dessous.

  • Le menu “Langue principale” sert à déterminer la langue du corpus afin de permettre l'annotation morpho-syntaxique.
  • Le menu “Segmentation lexicale” permet de déterminer quelle balise encodera les mots. Il permet également de choisir si l'on souhaite Tokeniser les fichiers. Enfin il permet de déterminer les caractères séparateurs (ponctuation, espaces, caractères d'élision et caractères de fin de phrase.
  • Le menu “Éditions” permet de construire l'édition du corpus en sélectionnant le nombre de mots par page, l'élément de pagination (<pb> par exemple) et également de construire l'édition fac-similaire via la sélection du répertoire contenant les images.
  • Le menu “Commandes” permet de déterminer la structure de limite des contextes de concordance (par défaut <text>, il est possible de réduire le champ d'action en laissant de côté le <front> en inscrivant dans la case approprié “body” par exemple.)
  • Le menu “Plans Textuels” permet de spécifier l'élément relatif aux notes. Il permet également de sélectionner des éléments de structurations que l'on ne souhaite pas éditer ou que l'on souhaite considérer comme étant “hors texte” mais en l'éditant tout de même (les métadonnées seront vraisemblablement dans ces cases).
  • Le menu “Option” permet de sélectionner une option qui écrasera ou non les répertoires temporaires. Il est important de décocher la case si l'on souhaite travailler avec le répertoire “tokenized” du corpus.

Lorsque tous les champs ont été remplis cliquer sur lancer l'import du corpus. La durée de l'opération est plus ou moins longue selon la taille du corpus.

Application de Script Groovy pour l'extraction de flux par réduction

Afficher le menu “macro” dans TXM. Pour ouvrir le menu macro aller dans le menu “Affichage”, puis le sous-menu “Vue” de TXM et cliquer sur “Macro”. Sélectionner le corpus souhaité et lancer la macro correponsant au fichier d'entrée (XML-TEI P5 venant d'Oxgarage ou XML-TEI Métopes créé avec le filtre d'export OpenOffice) qui se trouve dans le dossier Create_Metopes avec un double clic. Une fois l'opération achevée un dossier Métopes se crée dans le dossier corpora et contient les fichiers XML-TEI compatibles Métopes.

Descriptif des macros :

  • TokenizedToMetopes : transforme les fichiers créés initialement via OpenOffice en fichiers XML-TEI Métopes à partir du répertoire “tokenized” du corpus.
  • TxmToMetopes : transforme les fichiers créés initialement via OpenOffice en fichiers XML-TEI Métopes à partir du répertoire “TXM” du corpus.
  • OxTokenizedToMetopes : transforme les fichiers créés initialement via Oxgarage en fichiers XML-TEI Métopes à partir du répertoire “tokenized” du corpus.
  • OxTxmToMetopes : transforme les fichiers créés initialement via Oxgarage en fichiers XML-TEI Métopes à partir du répertoire “TXM” du corpus.

Alternative à la macro

Il est également possible d'appliquer les XSL de conversion vers les fichiers XML-TEI compatibles Métopes avec le logiciel XMLMind XML Editor (XXE). Ouvrir les fichiers du dossier “tokenized” du dossier corpora qui se trouve au sein du dossier TXM de l'utilisateur avec le logiciel XXE. Appuyer sur le bouton “Convertir le fichier”(logo de TXM). Un nouveau fichier se crée et peut être enregistré à la convenance de l'utilisateur.

Attention : les fichiers tokenisés peuvent être très longs à s'ouvrir dans XXE. Dans les cas où les fichiers sont lourds il est recommandé d'utiliser la macro dans TXM.

public/usr_mrsh/tutoriels3.txt · Dernière modification: 2017/04/27 15:32 par alexei.lavrentev@ens-lyon.fr