Tutoriels d'importation de corpus de textes XML-TEI

Introduction

Cette page regroupe des liens vers des tutoriels d'importation dans TXM de corpus d'origines diverses encodés en XML selon les recommandations de la TEI.

AL : Compte-tenu de la complexité et de la flexibilité du schéma de balisage XML-TEI, il est impossible de proposer un seul module ou une seule stratégie d'importation qui convienne à tous les cas d'usage. Les tutoriels présentés ci-dessous ont été élaborés dans le cadre de projets précis.

SH : La représentation XML-TEI des sources suit les recommandations d'encodage du consortium TEI mais ne constitue pas en soi un format informatique traitable directement par les logiciels. Seul le XML sous-jacent, support de cette représentation, est un format interprétable directement - de niveau sémantique inférieur - pour réaliser une importation dans TXM. TXM propose donc aujourd'hui deux stratégies d'import de sources XML-TEI de niveaux sémantiques différents :

  • stratégie A) le niveau XML neutre n'interprétant pratiquement pas de sémantique de balises TEI. Dans cette stratégie, l'essentiel des balises XML est interprété comme des éléments de structuration des textes. C'est la stratégie implémentée dans le module d'import XML/w+CSV ;
  • stratégie B) le niveau TEI où différents modules interprètent la sémantique de certaines balises TEI pour appliquer différents traitements : décider de ce qui ne fait pas partie du corps des textes, comment segmenter en unités lexicales, comment paginer les éditions, etc. C'est la stratégie implémentée dans les modu les d'import 'XML-TEI BFM' et 'XML-TEI Frantext', puis 'XML-XTZ+CSV' à partir de TXM 0.7.8.

Remarque : il est recommandé d'utiliser désormais le module d'import XTZ+CSV plutôt que le module XML/w+CSV pour les imports TEI. Voir le Tutoriel d'importation avec le module d'import XTZ+CSV.

Stratégie A

A.1 Import TEI générique conservateur

Tutoriel Import XML/w+CSV + filtre front XSL txm-filter-teip5-xmlw-preserve.xsl

Import de n'importe quelle source XML-TEI en important le maximum de balises XML sous forme de structures textuelles :

  1. encoder un texte par fichier XML-TEI
  2. déposer les fichiers dans le répertoire source X
  3. lancer le module d'import XML/w+CSV
    1. désigner le répertoire des sources X
    2. sélectionner la feuille front XSL txm-filter-teip5-xmlw-preserve.xsl
    3. sélectionner la langue de lemmatisation (optionnel)
    4. lancer l'importation
    5. un nouveau corpus X est créé

A.2 Import TEI générique spécialisé

Tutoriel Import XML/w+CSV + filtre front XSL txm-filter-teip5-xmlw-simplify.xsl

Import de n'importe quelle source XML-TEI en important seulement les balises XML correspondant aux pratiques d'encodage de la Base de français médiéval :

  1. encoder chaque texte dans un fichier XML-TEI d'extension '.xml'
  2. déposer les fichiers dans un répertoire des sources nommé 'X'
  3. lancer le module d'import XML/w+CSV
    (dans TXM : Fichier / Importer / XML/x+CSV)
    1. désigner le répertoire des sources X
      (en cliquant sur 'sélectionner le répertoire des sources' dans le formulaire des paramètres d'import)
    2. sélectionner la feuille XSL d'entrée txm-filter-teip5-xmlw-simplify.xsl
      (à la section 'Feuille XSL d'entrée' du formulaire, en cliquant sur le bouton '…' puis en navigant vers la feuille de style pour la sélectionner. À l'installation de TXM, les feuilles de styles sont installées dans le répertoire 'Répertoire personnel / TXM / xsl')
    3. sélectionner la langue de lemmatisation (optionnel)
    4. lancer l'importation
    5. un nouveau corpus X est créé

Liste des balises importées :

  • <TEI>, <text>… texts and their properties
  • <teiHeader>, <note>… what should not be indexed but considered for edition rendering
  • <div>, <p>… intermediate text structures and their properties
  • #PCDATA, <w>, <num>… words and their properties
    • @xml:id : words identifier policy
  • <sic>, <corr>… editorial markup
  • <pb/>, <p>, <lb/>… pagination of the edition and edition pages rendering

Stratégie B

Différentes documentations et tutoriels sont disponibles en fonction de chaque pratique TEI.

Voir aussi

Voir la description de la bibliothèque des feuilles de style XSLT génériques pour TXM pour le détail de certaines manipulations de sources XML-TEI (à utiliser comme 'front XSL' dans le module d'import XML/w+CSV).

Vous pouvez également consulter la section "Support for TEI" de la page TXM du wiki de la TEI.

public/tutoriels_import_xml-tei.txt · Dernière modification: 2017/05/07 11:26 par slh@ens-lyon.fr