Documentation des feuilles XSL

Les feuilles XSL permettent de transformer facilement des fichiers XML avec le language de transformation XSLT 2.0. Elles sont appelables comme filtre initial de tous les modules d'importation basés sur le format XML (XML/w+CSV, etc.) ou directement à l'aide de la macro ExecXSL. Elles forment un ensemble d'utilitaires satellites de TXM permettant d'adapter n'importe quelle source XML pour son importation dans la plateforme TXM.

Cette page recense la documentation des feuilles XSL livrées avec TXM (dans le répertoire <$HOME>/TXM/xsl). Les versions les plus récentes de ces feuilles sont également téléchargeables depuis Sourceforge : http://sourceforge.net/projects/txm/files/library/xsl.

Vous pouvez partager vos propres feuilles XSL et leur documentation avec la communauté des utilisateurs de TXM dans cette page.

Conventions :

  • le nom des feuilles XSL obéit en général au format suivant 'txm-filter-[format d'entrée]-[module d'import](-[option])?' ;
  • les auteurs et les licences de diffusion des feuilles XSL sont indiqués au sein de chaque feuille.

Feuilles de style destinées à l'usage avec le module d'import XTZ+CSV

1-split-merge step

txm-rename-files-no-dots.xsl

This stylesheet is designed for TXM XTZ+CSV import module to replace dots with underscores in source file names. (A bug in TXM 0.7.8 prevents files containing dots in their names from being imported).

txm-split-teicorpus.xsl

This stylesheet may be used to split a single file containing a teiCorpus into individual files for each TEI child.

2-front step

txm-front-teiHeader2textAtt.xsl

This stylesheet may be customized to extract metadata from teiHeader and create corresponding attributes of the text element.

3-posttok step

txm-posttok-addRef.xsl

This stylesheet may be customized to add a ref attribute du w elements which will be used as a default reference in TXM concordances.

txm-posttok-unbreakWords.xsl

This stylesheet may be customized to re-unite the words broken in the primary tokenization process (due to line or page breaks, for instance)

4-edition step

1-default-html.xsl

This is an alternative stylesheet for creating default editions with the XTZ module. It transforms every TEI element into an HTML span with @class. This stylesheet must be used in conjunction with 2-default-pager.xsl.

2-defaut-pager.xsl

This stylesheet should be used in conjunction with 1-default-html.xsl to create edition pages.

Feuilles génériques élémentaires de traitement de sources XML

  • filter-keep-only-select.xsl : cette feuille de transformation supprime le contenu de tous les éléments XML à l'exception de <select> et de ses descendants (voir la ligne 43). Si le document ne contient pas de balise <select>, aucune modification n'est effectuée. Elle peut être adaptée et utilisée avec le module d'import XML/w+CSV pour limiter le corpus aux éléments préannotés ;
  • filter-out-p.xsl : cette feuille de transformation supprime le contenu de tous les éléments <p> ayant un attribut 'type' à la valeur 'ouverture' (voir la ligne 42). Elle peut être adaptée et utilisée avec le module d'import XML/w+CSV pour filtrer le contenu de différentes balises XML à la volée ;
  • filter-out-sp.xsl : cette feuille de transformation supprime le contenu de tous les éléments <sp> ayant un attribut 'who' à la valeur 'enqueteur' (voir la ligne 42). Elle peut être adaptée et utilisée avec le module d'import Transcriber+CSV pour filtrer les prises de tour de différents locuteurs à la volée.
  • filter-number-act-scene-line.xsl : cette feuille de transformation numérote tous les actes, scènes et lignes de l'édition XML de la pièce All's Well That Ends Well de William Shakespeare publiée en ligne https://www.ibiblio.org/xml/examples/shakespeare/all_well.xml.
    • Elle peut être utilisée avec le module d'import XML/w+CSV pour numéroter à la volée lors de l'import. Attention : le pré-traitement XSL est plus strict (moins permissif) que le reste du module XML/w+CSV. Il faudra donc au préalable déposer dans le répertoire contenant la pièce le fichier de DTD correspondant disponible en ligne http://www.ibiblio.org/xml/examples/play.dtd.
    • Elle peut également être appliquée de façon définitive sur la pièce au préalable, avant import, avec l'aide de la macro ExecXSL.

Feuilles génériques d'adaptation de sources XML-TEI P5

  • txm-filter-teip5-teibfm.xsl : cette feuille de transformation peut être adaptée pour prétraiter n'importe quel document au format XML-TEI P5 pour un import avec le module TEI BFM
  • txm-filter-teip5-xmlw-preserve.xsl : rend compatible n'importe quel document au format XML-TEI P5 pour un import dans TXM avec le module XML/w+CSV. Par défaut, elle supprime le contenu des éléments <teiHeader> et <facsimile> et laisse tous les autres éléments inchangés
    • Il est possible d'appliquer cette feuille de style avec les paramètres suivants :
      • deleteAll : liste des noms de balises à supprimer avec leur contenu, les noms sont séparés pas des barres verticales (teiHeader|facsimile par défaut)
      • deleteTag : liste des noms de balises à supprimer en conservant leur contenu, les noms sont séparés pas des barres verticales (liste vide par défaut)
  • txm-filter-teip5-xmlw-simplify.xsl : rend compatible n'importe quel document au format XML-TEI P5 pour un import dans TXM avec le module XML/w+CSV en ne gardant que les balises <ab>, <body>, <div>, <front>, <lb>, <p>, <pb>, <s>, <TEI>, <text> et <w> dans le corps du texte.
    • Il est possible d'appliquer cette feuille de style avec les paramètres suivants :
      • deleteAll : liste des balises à supprimer avec leur contenu, les noms des balises sont séparés pas des barres verticales (teiHeader|facsimile par défaut)
      • copyAll : liste des balises à conserver, les noms des balises sont séparés pas des barres verticales (ab|body|div|front|head|lb|p|pb|s|TEI|text|w par défaut) ;
    • Toutes les autres balises sont supprimées, leur contenu textuel est en revanche conservé.
  • txm-filter-bnc_oral-xmlw.xsl : adapte les transcriptions de l'oral du BNC pour un traitement dans TXM.
    • Projete dans des attributs de balise <div> le contenu de certaines métadonnées du teiHeader (pour faciliter les contrastes internes entre types d'activités) :
      • titleStmt/title
      • profileDesc/creation
      • classCode[@scheme='DLEE']
      • setting/placeName
      • setting/locale
      • setting/activity
      • setting/activity/@spont
      • recording/@date ou profileDesc/creation
    • Projete dans des attributs de balise <u> le contenu de certaines métadonnées du teiHeader (pour faciliter les contrastes internes entre types de locuteurs) :
      • profileDesc/particDesc/person[…]/@*

Feuilles spécialisées pour traiter un corpus particulier

  • p4top5_perseus.xsl : conversion des fichiers XML du projet Perseus du format TEI P4 au format TEI P5 avant import dans TXM ;
  • txm-filter-teibrown-xmlw.xsl : conversion préalable des fichiers XML du projet NLTK/Brown pour le module d'import XML/w+CSV
  • txm-filter-teifrantext-teibfm.xsl : conversion préalable des fichiers XML de la base Frantext libre pour le module d'import TEI BFM (experimental : cette feuille ne fonctionnera pas correctement pour les documents ne suivant pas les recommandations d'encodage des fichiers XML-TEI de la BFM)
  • txm-filter-teifrantext-xmlw.xsl : conversion préalable des fichiers XML de la base Frantext libre pour le module d'import XML/w+CSV

Feuilles nécessaires au fonctionnement de TXM

Vous pouvez les utiliser librement, mais vous devez pas les modifier ou supprimer !

  • breakByMilestone.xsl : extrait le contenu d'un document XML situé entre deux balises <tei:pb/> dont les numéros sont fournis en tant que paramètres et de l'enrgistrer comme document XML bien formé. Utilisée par le module d'import Transcriber + CSV
  • concordance_mot-pivot.xsl : génère une concordance syntaxique “mot-pivot” (liée à la fonctionnalité Tiger du portail TXM)
  • concordance_simple.xsl : génère une concordance syntaxique “simple” (liée à la fonctionnalité Tiger du portail TXM)
  • identity.xsl : copie le document XML à l'identique (en s'assurant de la bonne formation et en tenant compte du schéma ou de la DTD éventuels)
  • svn2cl : convertit un log svn xml en changelog standard
public/xsl.txt · Dernière modification: 2017/10/04 16:15 par alexei.lavrentev@ens-lyon.fr