Documentation des feuilles XSL

Les feuilles XSL permettent de transformer facilement des fichiers XML avec le language de transformation XSLT 2.0. Elles sont appelables comme filtre initial de tous les modules d'importation basés sur le format XML (XML/w+CSV, etc.) ou directement à l'aide de la macro ExecXSL. Elles forment un ensemble d'utilitaires satellites de TXM permettant d'adapter n'importe quelle source XML pour son importation dans la plateforme TXM.

Cette page recense la documentation des feuilles XSL livrées avec TXM (dans le répertoire <$HOME>/TXM/xsl). Les versions les plus récentes de ces feuilles sont également téléchargeables depuis Sourceforge : http://sourceforge.net/projects/txm/files/library/xsl.

Vous pouvez partager vos propres feuilles XSL et leur documentation avec la communauté des utilisateurs de TXM dans cette page.

Conventions :

  • le nom des feuilles XSL obéit en général au format suivant 'txm-filter-[format d'entrée]-[module d'import](-[option])?' ;
  • les auteurs et les licences de diffusion des feuilles XSL sont indiqués au sein de chaque feuille.

Feuilles génériques élémentaires de filtrage de sources XML

  • filter-keep-only-select.xsl : cette feuille de transformation supprime le contenu de tous les éléments XML à l'exception de <select> et de ses descendants (voir la ligne 43). Si le document ne contient pas de balise <select>, aucune modification n'est effectuée. Elle peut être adaptée et utilisée avec le module d'import XML/w+CSV pour limiter le corpus aux éléments préannotés ;
  • filter-out-p.xsl : cette feuille de transformation supprime le contenu de tous les éléments <p> ayant un attribut 'type' à la valeur 'ouverture' (voir la ligne 42). Elle peut être adaptée et utilisée avec le module d'import XML/w+CSV pour filtrer le contenu de différentes balises XML à la volée ;
  • filter-out-sp.xsl : cette feuille de transformation supprime le contenu de tous les éléments <sp> ayant un attribut 'who' à la valeur 'enqueteur' (voir la ligne 42). Elle peut être adaptée et utilisée avec le module d'import Transcriber+CSV pour filtrer les prises de tour de différents locuteurs à la volée.

Feuilles génériques d'adaptation de sources XML-TEI P5

  • txm-filter-teip5-teibfm.xsl : cette feuille de transformation peut être adaptée pour prétraiter n'importe quel document au format XML-TEI P5 pour un import avec le module TEI BFM
  • txm-filter-teip5-xmlw-preserve.xsl : rend compatible n'importe quel document au format XML-TEI P5 pour un import dans TXM avec le module XML/w+CSV. Par défaut, elle supprime le contenu des éléments <teiHeader> et <facsimile> et laisse tous les autres éléments inchangés
    • Il est possible d'appliquer cette feuille de style avec les paramètres suivants :
      • deleteAll : liste des noms de balises à supprimer avec leur contenu, les noms sont séparés pas des barres verticales (teiHeader|facsimile par défaut)
      • deleteTag : liste des noms de balises à supprimer en conservant leur contenu, les noms sont séparés pas des barres verticales (liste vide par défaut)
  • txm-filter-teip5-xmlw-simplify.xsl : rend compatible n'importe quel document au format XML-TEI P5 pour un import dans TXM avec le module XML/w+CSV en ne gardant que les balises <ab>, <body>, <div>, <front>, <lb>, <p>, <pb>, <s>, <TEI>, <text> et <w> dans le corps du texte.
    • Il est possible d'appliquer cette feuille de style avec les paramètres suivants :
      • deleteAll : liste des balises à supprimer avec leur contenu, les noms des balises sont séparés pas des barres verticales (teiHeader|facsimile par défaut)
      • copyAll : liste des balises à conserver, les noms des balises sont séparés pas des barres verticales (ab|body|div|front|head|lb|p|pb|s|TEI|text|w par défaut) ;
    • Toutes les autres balises sont supprimées, leur contenu textuel est en revanche conservé.

Feuilles spécialisées pour traiter un corpus particulier

  • p4top5_perseus.xsl : conversion des fichiers XML du projet Perseus du format TEI P4 au format TEI P5 avant import dans TXM ;
  • txm-filter-teibrown-xmlw.xsl : conversion préalable des fichiers XML du projet NLTK/Brown pour le module d'import XML/w+CSV
  • txm-filter-teifrantext-teibfm.xsl : conversion préalable des fichiers XML de la base Frantext libre pour le module d'import TEI BFM (experimental : cette feuille ne fonctionnera pas correctement pour les documents ne suivant pas les recommandations d'encodage des fichiers XML-TEI de la BFM)
  • txm-filter-teifrantext-xmlw.xsl : conversion préalable des fichiers XML de la base Frantext libre pour le module d'import XML/w+CSV

Feuilles nécessaires au fonctionnement de TXM

Vous pouvez les utiliser librement, mais vous devez pas les modifier ou supprimer !

  • breakByMilestone.xsl : extrait le contenu d'un document XML situé entre deux balises <tei:pb/> dont les numéros sont fournis en tant que paramètres et de l'enrgistrer comme document XML bien formé. Utilisée par le module d'import Transcriber + CSV
  • concordance_mot-pivot.xsl : génère une concordance syntaxique “mot-pivot” (liée à la fonctionnalité Tiger du portail TXM)
  • concordance_simple.xsl : génère une concordance syntaxique “simple” (liée à la fonctionnalité Tiger du portail TXM)
  • identity.xsl : copie le document XML à l'identique (en s'assurant de la bonne formation et en tenant compte du schéma ou de la DTD éventuels)
  • svn2cl : convertit un log svn xml en changelog standard
public/xsl.txt · Dernière modification: 2015/02/19 15:29 par alexei.lavrentev@ens-lyon.fr