Outils pour utilisateurs

Outils du site


public:environnement_import

Spécifications de l'architecture d'import

Objectifs

Organiser les sources externe et les paramètres d'import d'un corpus pour son import dans TXM vers la représentation interne de corpus ou “binaire” (fichiers XML-TEI TXM pivots+indexes CQP+indexes d'éditions+éditions+infrastructure d'annotation CQP+paramètres de corpus).

Aider à importer un corpus à partir de ses sources sur une autre machine en réutilisant des paramètres d'import (import.xml → .settings).

Organiser l'infrastructure d'annotation CQP. Notamment pour le ré-import (phases finales d'import), lors de l'enregistrement des annotations.

Déroulement de l'import

  • Démarrage d'un import : xmlLoader.groovy, stocké chez l'utilisateur et qui ne peut pas être mis à jour. Ce fichier drive les différentes étapes d'un module d'import
    1. Récupération des paramètres d'import (nom du corpus, langue du corpus…)
    2. Lecture des paramètres supplémentaires d'import : import.properties
    3. Front XSL
      • si présent : applique une XSL sur les fichiers non-cachés (pt de vue Java), valides XML et qui ne match pas (import.xml|*.(properties|csv|dtd|xsl)). Copie le résultat dans le dossier BIN/src qui sera utilisé comme dossier source XML
    4. Copie des fichiers à traiter dans BIN/txm
      • on ignore les fichiers “import.xml”, “metadata.csv” et “*.properties”
      • on ne garde que les fichiers qui passent la validation XML de ValidateXml.test(f)
    5. Lecture des metadonnéees du fichier metadata.csv
    6. étape importer (XXX → XML-TXM)
      • Validation et Sélection des fichiers XML (.xml) du dossier BIN/txm (si XSL)
      • Tokenize avec SimpleTokenizerXml
      • Transforme en XML-TXM avec Xml2Ana et les enregistre dans BIN/txm
    7. injection des métadonnées
    8. étape Annotate
      • Créer fichier TT source à partir de tous les fichiers (qui doivent être XML-TXM) du dossier BIN/txm
      • Applique TT
      • Créer fichier d'annotation XML-TXM Stand-off
      • Injection des annotations dans les fichiers XML-TXM
    9. étape compiler
      • Créer une fichier “.wtc” à partir de tous les fichiers du dossier BIN/txm
    10. étape pager
      • Créer les fichiers “.html” à partir de tous les fichiers du dossier BIN/txm

Etat des lieux

Du paramétrage d'import de corpus :

  • Plusieurs Fichiers :
    • import.xml
    • metadata.csv
    • parameters.properties

Migrer ce qui est possible dans un TEICorpus>TEIHeader.

Chantiers :

  • Paramétrages manquants
    • dont options éditions : pagination, bibliographies, PDFs → doc “admin portail”
    • dont paramètres par défaut
    • dont CSS
    • balises à ne pas afficher ou à afficher dans les UI ou paramètres
    • choix du tokenizer
  • forcer les modules TMX et TRS à passer par XML-TXM (teiCorpus parallèle)
  • Synthèse des paramètres existant pour tous les modules (TXT, XML/w, TEI, TMX, TRS, etc.) : import.xml, parameters.properties, metadata.csv (exemple langue pour TreeTagger), CSS + clarification pagination nb mots/balise
    • choix architecture stand-off (plan supplémentaire à text, teiHeader, facsimile, sourcedoc)
  • Intégrer tous les paramètres dans un import.xml+metadata.csv (renommage)
    • Synchroniser tous les modules avec ce nouveau import.xml
  • REGISTRY : Sortir les “informations de corpus” (associations pages-idmot)
    • dans SGBD
    • session/utilisateur (requêtes, paramètres perso, UI…), corpus (dont paramètres par défaut)
  • Migration “import.xml” vers teiCorpus > teiHeader
  • Migration teiCorpus > teiHeader vers ODD
  • Migration corpus : XInclude, stand-off, XPointer
  • Architecture des modules et relations entre eux. Rôle d'un passage XML-TXM (format + module d'import)
    • Retailler les modules

Méthode

Solution

Protocole de test

Recette

Archives

Compte rendu de la conférence TEI 2013 Rome

  • Paramétrage d'import
    • Un fichier driver XML autre comme Xaira et le fichier import.xml+parameters.properties
    • Utiliser l’entête TEI de TEICorpus
    • Utiliser l'ODD pour importer de la TEI
  • Stand-off : sur modèle token (vs caractère) : voir avec Banski
    • Chantier milestones dans CQP : voir avec Thomas Krause
  • Genres textuels : typologie
    • Chantier PRESTO : voir avec MLD
  • Volumétrie
    • Mieux communiquer sur l'usage de CQP dans TXM, l'import
    • Vérifier l'import de corpus volumineux
    • Chantier PRESTO : Sascha utilise t-il scan corpus

Autre

  • Préparation de corpus :
    • Rentrer dans TXM
    • Vérifier le corpus
    • Ajuster les sources

BUG import XML/w + CSV de TXM 0.7.5 : fichiers Tild et cachés

public/environnement_import.txt · Dernière modification: 2020/11/03 14:22 par slh@ens-lyon.fr