Liste de liens :
Liste de liens :
Le module XTZ est capable d'interpréter un jeu minimal de balises TEI appelé “TEI Zero” (dans la lignée des jeux de balises minimaux déjà existants TEI lite, TEI tite, TEI bare). Les balises interprétées servent à construire les données habituellement exploitées par TXM dans l'indexation des mots, dans la construction des éditions, etc. Il est progressif au sens où il n'est pas nécessaire d'encoder toutes les balises du jeu dans un corpus donné pour pouvoir être importé par ce module. L'utilisateur n'encode que les balises qui lui sont nécessaires dans l'exploitation avec TXM.
Il remplace le module XML/w+CSV comme module interprétant des balises a priori et de façon progressive, et il s'utilise dans le même esprit.
Tous les autres éléments XML (les autres balises) sont transférés tels quels comme structures intermédiaires entre l'unité textuelle et les unités lexicales, leurs attributs devenant les propriétés des structures. Ces éléments ne sont pas disponibles dans les éditions par défaut, produites par le module. En revanche, ils peuvent être conservés dans les éditions (sous la forme d'élements HTML span avec l'attribut @class, par exemple) dans les éditions produites par des feuilles de style XSLT (voir plus bas).
Le module XTZ peut ignorer certaines balises ou contenus de balises lors de l'indexation pour le moteur de recherche ou lors de la production des pages d'édition.
Ces éléments sont supprimés entièrement en amont de l'étape de tokénisation. Ils ne sont pas disponibles pour la production des éditions, ni pour la création de références.
Ces éléments sont conservés, mais le texte qu'ils contiennent n'est pas tokénisé et indexé par le moteur de recherche. En revanche, ce texte est affiché dans les éditions. Exemples d'usage : Introduction à une édition scientifique, titres ajoutés par l'éditeur, entêtes TEI dont on veut utiliser des métadonnées.
Un type particulier de hors texte à éditer qui prend la forme de notes de bas de page dans les éditions par défaut.
Le moteur de recherche CQP de TXM ne peut pas prendre en compte les éléments milestone XML. Cette option permet de déplacer l'information utile dans des propriétés de mots. Pour chaque balise milestone indiquée, on projette dans les mots :
Par exemple avec la valeur de paramètre :
lb,cb,pb
on ajoute à tous les mots les propriétés suivantes :
Le module XTZ permet d'appliquer des XSL aux sources en cours de traitement lors de 4 points clés :
À chaque point clé du module correspond un répertoire de même nom dans le répertoire source contenant les XSL à appliquer à ce point clé. Ces XSL sont appliquées dans l'ordre lexicographique de leur nom.
Chaque XSL peut utiliser les paramètres suivants :
Cas des XSL de production de l'édition HTML (point '4-edition') :
Les DTD ou schémas utilisés par les XSL doivent être fournis dans le répertoire 'dtd' du répertoire source.
Patterns de traitements :
Le module XTZ peut produire des éditions synoptiques affichant côte-à-côte différentes versions de chaque page :
Toutes les pages d'édition sont encodés en HTML5 + CSS3 + Javascript.
Par défaut, seule une édition simple (non synoptique) est produite à l'import.
Le module peut construire une édition incluant les images de pages (de fac-similé) en cochant l'option “Construire l'édition fac-similé/Build 'facs' edition” du formulaire de paramètres d'import. L'édition des textes est alors implicitement synoptique en combinant au moins l'édition du texte de base et l'édition fac-similé.
Les sources doivent contenir des éléments XML de saut de page, dont on peut choisir le nom avec le paramètre “Balise de saut de page/Page break tag” (valeur “pb” par défaut).
Les images des pages peuvent se trouver sur la machine de l'utilisateur (locales) ou bien être accessibles depuis Internet (distantes).
Dans ce cas, il faut indiquer à TXM un répertoire contenant les images, dans lequel toutes les images des pages d'un texte donné doivent être regroupées dans un répertoire ayant comme nom l'identifiant du texte.
Tous les répertoires d'images de pages de textes doivent être regroupés dans un répertoire de base des images.
Quand le chemin de ce répertoire est fournit au paramètre “Répertoire d'images/Images directory”, le module d'import va ajouter ou modifier les attributs @facs de tous les éléments de saut de page du corpus à partir des noms de fichiers images. L'ordre alphabétique des noms de fichiers images sera utilisé pour affecter le nom de chaque fichier image à chaque saut de page au fil du texte. Les répertoires d'images sont recopiés dans le corpus binaire.
Si le paramètre “Répertoire d'images/Images directory” est laissé vide, le module d'import va interpréter les valeurs des attributs @facs de chaque élément de saut de page.
Ces valeurs doivent être des URLs qui peuvent être absolues ou relatives, distantes (avec le préfixe “http://”) ou locales (avec le préfixe “file://, c'est à dire pour désigner des fichiers se trouvant sur la machine de l'utilisateur). Les URLs ne sont pas vérifiées au moment de l'import. Vous devez vous assurer de la disponibilité de l'accès aux images au moment de l'exploitation du corpus.
Transfert de la macro xtzEditionBuilder vers le module XTZ (voir la spec plus haut)
Les CSS, les images et les scripts Javascript utilisés par les pages HTML d'édition doivent être fournies respectivement dans les sous-répertoires du répertoire source suivants :
Pour désigner ces ressources, les url doivent être relatives à la page.
Les répertoires contenant les éditions d'un corpus binaire se trouvent dans
$TXMHOME/corpora/$CORPUSNAME/HTML/$CORPUSNAME
. TXMHOME étant le répertoire de travail de TXM par défaut créé dans le répertoire utilisateur et CORPUSNAME étant le nom du corpus.
L'ordre des textes d'un corpus concerne l'ordre d'apparition des occurrences dans les progressions ou dans les concordances, l'ordre des éditions de textes, etc.
Si le répertoire source du corpus contient un fichier metadata.csv et si ce dernier contient une colonne “textorder” alors les textes du corpus seront ordonnés selon l'ordre alphanumérique des valeurs de cette colonne.
Par exemple, pour un répertoire contenant :
<text id="a">A AA AAA</text>
<text id="b">B BB BBB</text>
<text id="z">Z ZZ ZZZ</text>
id textorder a 003 b 001 z 002
L'ordre des textes sera 'b', 'z' et 'a'.
Par défaut, l'élément utilisé pour pré-coder la tokenisation est “w”, mais il est possible d'en choisir un autre en renseignant le champ “Word tag” avec le nom de l'élément à utiliser.
La section “Options” du formulaire d'import, offre une nouvelle option (d'autres suivront).