Outils pour utilisateurs

Outils du site


public:environnement_import

Spécifications de l'environnement d'import

Objectifs

Compte rendu de la conférence TEI 2013 Rome

  • Paramétrage d'import
    • Un fichier driver XML autre comme Xaira et le fichier import.xml+parameters.properties
    • Utiliser l’entête TEI de TEICorpus
    • Utiliser l'ODD pour importer de la TEI
  • Stand-off : sur modèle token (vs caractère) : voir avec Banski
    • Chantier milestones dans CQP : voir avec Thomas Krause
  • Genres textuels : typologie
    • Chantier PRESTO : voir avec MLD
  • Volumétrie
    • Mieux communiquer sur l'usage de CQP dans TXM, l'import
    • Vérifier l'import de corpus volumineux
    • Chantier PRESTO : Sascha utilise t-il scan corpus

Autre

  • Préparation de corpus :
    • Rentrer dans TXM
    • Vérifier le corpus
    • Ajuster les sources

BUG import XML/w + CSV de TXM 0.7.5 : fichiers Tild et cachés

Déroulement de l'import

  • Démarrage d'un import : xmlLoader.groovy, stocké chez l'utilisateur et qui ne peut pas être mis à jour. Ce fichier drive les différentes étapes d'un module d'import
    1. Récupération des paramètres d'import (nom du corpus, langue du corpus…)
    2. Lecture des paramètres supplémentaires d'import : import.properties
    3. Front XSL
      • si présent : applique une XSL sur les fichiers non-cachés (pt de vue Java), valides XML et qui ne match pas (import.xml|*.(properties|csv|dtd|xsl)). Copie le résultat dans le dossier BIN/src qui sera utilisé comme dossier source XML
    4. Copie des fichiers à traiter dans BIN/txm
      • on ignore les fichiers “import.xml”, “metadata.csv” et “*.properties”
      • on ne garde que les fichiers qui passent la validation XML de ValidateXml.test(f)
    5. Lecture des metadonnéees du fichier metadata.csv
    6. étape importer (XXX → XML-TXM)
      • Validation et Sélection des fichiers XML (.xml) du dossier BIN/txm (si XSL)
      • Tokenize avec SimpleTokenizerXml
      • Transforme en XML-TXM avec Xml2Ana et les enregistre dans BIN/txm
    7. injection des métadonnées
    8. étape Annotate
      • Créer fichier TT source à partir de tous les fichiers (qui doivent être XML-TXM) du dossier BIN/txm
      • Applique TT
      • Créer fichier d'annotation XML-TXM Stand-off
      • Injection des annotations dans les fichiers XML-TXM
    9. étape compiler
      • Créer une fichier “.wtc” à partir de tous les fichiers du dossier BIN/txm
    10. étape pager
      • Créer les fichiers “.html” à partir de tous les fichiers du dossier BIN/txm

Correction du bug

Bug

Le point 4 copie une sélection de fichier Source (dont les fichiers Tilds et cachés) dans le dossier BIN/txm or le point 8 lit tous les fichiers du dossier BIN/txm

Correction pour la 0.7.6

Le point 4 devrait :

  • ne pas copier les fichiers cachés (ignorer Tild, caché, etc.)

L'étape importer, doit supprimer les fichiers cachés, Tild, etc. présents dans BIN/txm avant de commencer tout traitement

Patch pour la 0.7.5

L'étape importer, doit supprimer les fichiers cachés, Tild, etc. présents dans BIN/txm avant de commencer tout traitement

Etat des lieux

Du paramétrage d'import de corpus :

  • Plusieurs Fichiers :
    • import.xml
    • metadata.csv
    • parameters.properties

Migrer ce qui est possible dans un TEICorpus>TEIHeader.

Chantiers :

  • Paramétrages manquants
    • dont options éditions : pagination, bibliographies, PDFs → doc “admin portail”
    • dont paramètres par défaut
    • dont CSS
    • balises à ne pas afficher ou à afficher dans les UI ou paramètres
    • choix du tokenizer
  • forcer les modules TMX et TRS à passer par XML-TXM (teiCorpus parallèle)
  • Synthèse des paramètres existant pour tous les modules (TXT, XML/w, TEI, TMX, TRS, etc.) : import.xml, parameters.properties, metadata.csv (exemple langue pour TreeTagger), CSS + clarification pagination nb mots/balise
    • choix architecture stand-off (plan supplémentaire à text, teiHeader, facsimile, sourcedoc)
  • Intégrer tous les paramètres dans un import.xml+metadata.csv (renommage)
    • Synchroniser tous les modules avec ce nouveau import.xml
  • REGISTRY : Sortir les “informations de corpus” (associations pages-idmot)
    • dans SGBD
    • session/utilisateur (requêtes, paramètres perso, UI…), corpus (dont paramètres par défaut)
  • Migration “import.xml” vers teiCorpus > teiHeader
  • Migration teiCorpus > teiHeader vers ODD
  • Migration corpus : XInclude, stand-off, XPointer
  • Architecture des modules et relations entre eux. Rôle d'un passage XML-TXM (format + module d'import)
    • Retailler les modules

Méthode

Solution

Protocole de test

Recette

public/environnement_import.txt · Dernière modification: 2015/10/14 15:51 par slh@ens-lyon.fr