Outils pour utilisateurs

Outils du site


public:upr_irht_oriflamms:docs_4

Préparation des fichiers pour Oriflamms et TXM

Macro TEI2Project

Produit un projet Oriflamms.

Paramètres

  • xmlFile : le fichier XML-TEI Oriflamms qui sert de base à la création d'un projet Oriflamms.
  • xslFile : un éventuel fichier XSL de pré-traitement du fichier XML-TEI Oriflamms
  • exportProject : éventuellement l'utilisateur peut indiquer vouloir produire directement un corpus binaire Oriflamms (archive ZIP) à la place d'un dossier.

Utilisation

La macro utilise un certain nombre de feuilles de style XSL qui se trouvent à coté du script de la macro dans $HOME/TXM/scripts/macros/org/txm/macros/oriflamms pour corrigé si besoin le fichier XML-Oriflamms donné en entré de la macro. L'utilisateur peut les modifier si la macro n’aboutit pas à la création du projet.

Liste des XSL utilisées et leur fonction :

  • oriflamms-patch-milestones.xsl : s'assure de la présence systématique des milestones.
  • oriflamms-addxmlid.xsl : finalisation
  • oriflamms/prepare/oriflamms-tokenize-words.xsl : tokenize en mot
  • oriflamms-tokenize-chars-1-tag.xsl : tokenize en lettre
  • oriflamms-tokenize-chars-2-identify.xsl : finalisation
  • oriflamms-convert-transcriptions-orizones.xsl : créé les fichiers zones et img_links

Résultat

La macro produit un dossier (ou une archive) dont la structure est celle d'un projet Oriflamms :

  • img (vide)
  • img_links
  • ontologies (vide)
  • ontologies_links (vide)
  • oriflamms (vide)
  • texts
  • zones

Macro Project2XTZ

Prépare un projet Oriflamms pour pouvoir être exploitable par TXM.

Paramètres

  • oriflammsProjectDirectory : un projet Oriflamms (décompressé)

Utilisation

Il faut dézipper un projet Oriflamms pour pouvoir le préparer pour TXM avec cette macro.

Résultat

Dans le projet Oriflamms, les fichiers XML-TEI Oriflamms ont été enrichi :

  • (à faire v4) projection des ontologies locales d'un texte et des ontologies du projet

Dossier “xsl” contenant es feuilles de style XSLT nécessaires pour l'import XTZ sont copiées dans das sous-dossiers correspondants et paramétrées selon le type de corpus (mot ou caractère) :

  • 1-split-merge
    • 1-oriflamms-split-surfaces.xsl (uniquement pour le corpus de caractères)
  • 2-front
    • txm-front-teioriflammsw-xtz.xsl/txm-front-teioriflammsc-xtz.xsl
      • ajout des propriétés de mot/caractère (attributs des balises w/c) permettant de calculer le nombre de caractères supprimés par des abréviations
        • expan : toutes les lettres présentes + les résolutions d'abréviations entre parenthèses
        • letters-all : toutes les lettres présentes + les résolutions d'abréviations (sans mise en relief)
        • letters-alignable : toutes les lettres alignables (marques d'abréviations exclues)
        • characters : tous les caractères (marques d'abréviations comprises)
        • abbr-n : nombre d'abréviations
  • 4-edition
    • 1-default-html.xsl, 2-default-pager.xsl et 3-facsimile-pager.xsl
      • feuilles de style permattant de remplacer l'édition par défaut du module d'import et de créer une édition contenant les images des manuscrits

Dossier “css” contenant les feuilles de style CSS.

Dossiers “images” et “js” contenant l'outil de manipulation des facsimile (zoom et pan) et les imagettes qu'il utilise.

Analyses

Macro AbreviationsEtLignes

Produit un jeu de mesure d'abréviations dans les lignes d'un corpus

Paramètres

  • la distance en mot ou en lettre au début de la ligne
  • la distance en mot ou en lettre à la fin de la ligne

Utilisation

  1. Sélectionner un corpus importé depuis un projet Oriflamms avec le module d'import XML-XTZ
    • de mots, dont le nom fini par “W”
    • de lettre, dont le nom fini par “C”
  2. si ce n'est pas déjà fait, ouvrir la vue “Macros” (à partir du menu “Affichage”)
  3. double cliquer sur la macro AbreviationsEtLignes qui se trouve dans le sous-paquet “analyses” du paquet “oriflamms” de la vue “Macros”
  4. remplir les champs de distance, dont l'unité dépend du type de corpus sélectionné

Résultat

Un fichier TSV (CSV tabulé)

Macro AbreviationsEtSemantique

Produit un jeu de mesure d'abréviation dans des entités (personnes, lieux, etc.) d'un corpus.

Paramètres

  • entities : liste des entitées (name, persName, orgName, placeName) à traiter

Utilisation

  1. Sélectionner un corpus importé depuis un projet Oriflamms avec le module d'import XML-XTZ
    • de mots, dont le nom fini par “W”
    • de lettre, dont le nom fini par “C”
  2. si ce n'est pas déjà fait, ouvrir la vue “Macros” (à partir du menu “Affichage”)
  3. double cliquer sur la macro AbreviationsEtLignes qui se trouve dans le sous-paquet “analyses” du paquet “oriflamms” de la vue “Macros”
  4. sélectionner les entités à traité dans la liste déroullante

Résultat

Un fichier TSV (CSV tabulé)

Macro Allographs

Produit un jeu de mesure d'allographes et de leur signe d'un corpus.

Paramètres

  • signe : le signe à étudier
  • allographes : les allographes à dénombrer (par défaut tout est sélectionné)
  • CQL : requête CQL qui sert à sélectionner les mots par rapport à leurs propriétés, leur positions dans le corpus, page, colonne, lignes, entités, etc.

Utilisation

  1. Sélectionner un corpus importé depuis un projet Oriflamms avec le module d'import XML-XTZ
    • de mots, dont le nom fini par “W”
    • de lettre, dont le nom fini par “C”
  2. si ce n'est pas déjà fait, ouvrir la vue “Macros” (à partir du menu “Affichage”)
  3. double cliquer sur la macro AbreviationsEtLignes qui se trouve dans le sous-paquet “analyses” du paquet “oriflamms” de la vue “Macros”
  4. sélectionner le signe à étudier
  5. si on veut s'intéresser qu'à certain allographes du signes, sélectionner dans la liste suivante les allographes
  6. écrire la requête CQL de sélection des mots.
C'est mieux de préparer sa requête CQL dans TXM avec l'Index ou la Concordance avant de lancer ce calcul.

Résultat

Un fichier TSV (CSV tabulé).

public/upr_irht_oriflamms/docs_4.txt · Dernière modification: 2016/04/21 11:20 par matthieu.decorde@ens-lyon.fr