Outils pour utilisateurs

Outils du site


public:dth:workflow-general

WORKFLOW - Générique

  1. Philologie numérique : représentation XML-TEI
    1. Saisir les errata
      1. MC : quels errata ?
    2. Si nécessaire, dé-tokeniser les textes XML-TEI (« <w pos=“fw”>conatus</w><w pos=“pun”>,</w> » → « conatus, »
    3. Composition de 2 des textes pour construire « The Elements of Law »
    4. Vérification et correction du texte de base des transcriptions TCP relues et instrumentées par EarlyPrint
      1. Sur la base des images EEBO et de leurs défauts connus : numéro de page, échange de pages
      2. Sur la base des défauts connus des transcriptions EarlyPrint : lacunes de caractères ou de mots, autres systèmes d’écriture
      3. Sur la base d’une lecture intégrale : mise en forme (italique…), délimitation des répétitions
    5. Instrumentation des transcriptions pour leur import dans TXM
      1. Insertion des liens aux images EEBO, BIS, Gallica, WDB
      2. Insertion des sauts de page additionnels des éditions critiques
      3. Vérification et correction du balisage et de la numérotation des sections des textes et paragraphes (pour le Léviathan)
        • faire des vérifications par extraction pour les paragraphes
        • insérer les numérotations critiques (paragraphes du Léviathan)
      4. Insertion et vérification des marginalia
  2. Annotation linguistique des fichiers XML-TEI par MorphAdorner
    1. (Neo-Latin) Préparation ou Réglage de la tokenization pour les outils [réalisé par NWU]
    2. Tokenisation [réalisé par NWU]
    3. Étiquetage morphosyntaxique [réalisé par NWU]
    4. Lemmatisation [réalisé par NWU]
    5. Correction de l'étiquetage et des lemmes
      1. une première passe de correction a été réalisée par Martin Mueller (NWU)
    6. Injection des résultats dans les fichiers XML-TEI
  3. Import des fichiers dans TXM et vérification du corpus
    1. Création du fichier des métadonnées
    2. Création du dossier du corpus avec les fichiers sources, les métadonnées, les fichiers css et xsl
    3. Réglage des paramètres d’import
      • plans textuels
        • hors texte : teiHeader
        • hors texte à éditer : répétitions de texte dans les images EEBO, parties liminaires
        • notes
    4. Import du corpus dans TXM
    5. Vérification systématique
      • de l’exactitude des partitions des ouvrages et de leur affichage dans les graphiques de progression
      • de la référence de concordance du premier mot de chaque section : numéro section, numéro de page, numéro de paragraphe
  4. Vérification et correction par concordance de la lemmatisation NorthWestern
    1. Vérification de la lemmatisation des errata
    2. Vérification de la lemmatisation de mots contenant de lacunes
    3. Vérification de la lemmatisation des mots étrangers
    4. Vérification des lemmes
  5. Annotation sémantique : représentation XML-TEI TXM
    1. Conception d’un système d’annotation intégré (5.2.+5.3.+5.4.) en vue de 5.5. et 5.6..
      1. Création de la structure d’annotation
      2. Vérification de la constitution du champ « réf »
    2. Annotation URS automatique des références bibliques, à partir d’une requête CQL
      1. Vérification et optimisation de la requête CQL pour les références bibliques
      2. Lancement de la macro « HobbesConcordancetoUnit » pour créer autant d'unités URS que de matchs de la requête CQL
      3. Vérification et correction des unités
        • parcours intégral
        • recherche partielle : URS2CQP + Concordance, Index, etc.
    3. Annotation URS manuelle des références bibliques non attrapées par la requête
    4. Annotation URS manuelle des références bibliques critiques
    5. Extraction semi-automatique des citations explicites
    6. Génération automatique des index diplomatiques et critiques
public/dth/workflow-general.txt · Dernière modification: 2020/09/09 14:22 par slh@ens-lyon.fr