Outils pour utilisateurs

Outils du site


public:dth:workflow-corpus

WORKFLOW - Early Modern English

  1. Philologie numérique : représentation XML-TEI
    1. Vérification et correction du texte de base des transcriptions TCP relues et instrumentées par EarlyPrint, puis annotées linguistiquement et vérifiées par NWU
      1. Sur la base des défauts connus des transcriptions EarlyPrint :
          1. MC : tâche terminée
        1. ponctuation inconnue (voir plus bas)
          1. MC : tâche terminée
      2. Corrections spécifiques :
        1. abréviations (voir plus bas)
      3. Sur la base d’une lecture intégrale de l'édition TXM des transcriptions :
        1. corriger l'orthographe des formes et adapter si nécessaire les lemmes et pos correspondants
        2. corriger les mises en forme (italique…)
        3. délimitation des répétitions (mots, lignes)
    2. Sur la base des images EEBO et de leurs défauts connus : numéro de page, échange de pages
    3. Composition de 2 des textes pour construire « The Elements of Law »
    4. Instrumentation des transcriptions pour leur import dans TXM
      1. Insertion des liens aux images EEBO, BIS, BnF, WDB
        1. MC : tâche terminée
        2. FR : images de fac-similé du De Corpore Politico (BnF) manquantes, tableau des sciences du chapitre 9 du Leviathan (WDB) manquant. Prise de contact avec la BnF et la WDB effectuée, en attente de réponse
      2. Insertion des sauts de page additionnels des éditions critiques
      3. Vérification et correction du balisage et de la numérotation des sections des textes et paragraphes (pour le Léviathan)
        • faire des vérifications par extraction pour les paragraphes
        • insérer les numérotations critiques (paragraphes du Léviathan)
      4. Insertion, vérification et affichage des marginalia
  2. Annotation linguistique des fichiers XML-TEI par MorphAdorner
    1. (Neo-Latin) Préparation ou Réglage de la tokenization pour les outils [réalisé par NWU]
    2. Tokenisation [réalisé par NWU]
    3. Étiquetage morphosyntaxique [réalisé par NWU]
    4. Lemmatisation [réalisé par NWU]
    5. Correction de l'étiquetage et des lemmes
      1. une première passe de correction a été réalisée par Martin Mueller (NWU)
    6. Injection des résultats dans les fichiers XML-TEI
  3. Import des fichiers dans TXM et vérification du corpus
    1. Création du fichier des métadonnées
    2. Création du dossier du corpus avec les fichiers sources, les métadonnées, les fichiers css et xsl
    3. Réglage des paramètres d’import
      • plans textuels
        • hors texte : teiHeader
        • hors texte à éditer : répétitions de texte dans les images EEBO, parties liminaires
        • notes
    4. Import du corpus dans TXM
    5. Vérification systématique
      • de l’exactitude des partitions des ouvrages et de leur affichage dans les graphiques de progression
      • de la référence de concordance du premier mot de chaque section : numéro section, numéro de page, numéro de paragraphe
  4. Vérification et correction par concordance de la lemmatisation NorthWestern
    1. Vérification de la lemmatisation des errata
    2. Vérification de la lemmatisation de mots contenant de lacunes
    3. Vérification de la lemmatisation des mots étrangers
    4. Vérification des lemmes
  5. Annotation sémantique : représentation XML-TEI TXM
    1. Conception d’un système d’annotation intégré (5.2.+5.3.+5.4.) en vue de 5.5. et 5.6..
      1. Création de la structure d’annotation
      2. Vérification de la constitution du champ « réf »
    2. Annotation URS automatique des références bibliques, à partir d’une requête CQL
      1. Vérification et optimisation de la requête CQL pour les références bibliques
      2. Lancement de la macro « HobbesConcordancetoUnit » pour créer autant d'unités URS que de matchs de la requête CQL
      3. Vérification et correction des unités
        • parcours intégral
        • recherche partielle : URS2CQP + Concordance, Index, etc.
    3. Annotation URS manuelle des références bibliques non attrapées par la requête
    4. Annotation URS manuelle des références bibliques critiques
    5. Extraction semi-automatique des citations explicites
    6. Génération automatique des index diplomatiques et critiques

Tâches prioritaires à préciser

  • corrections POS+LEMME
    • compte-rendu Martin Mueller (NWU, Hobbes), SQL hébergement possible/pertinent ?
      • support : base de données Postgres (locale ?) avec interface utilisateur
      • environnement : tableau affichant token (forme+lemme+POS), contexte, fréquence, possibilité de modifier directement dedans
      • méthode : après exclusion des mots “grammaticaux”, correction sur un échantillon aléatoire de mots fréquents (freq >= 5) et sur l'ensemble des mots rares (freq < 5)
      • repérage des erreurs : constat ou recherche de motifs de POS “impossibles”
      • erreurs les plus fréquentes : noms propres et participes présent “faux positifs”, formes identiques d'une POS à une autre
    • compte-rendu Naomi Kanaka (Paris 1, BFM), Palm hébergement possible/pertinent ?
      • PALM = plateforme web de normalisation orthographique et de lemmatistion semi-automatiques de textes médiévaux en anglais, français
      • entrée : texte brut (a priori ; dans la démo, seuls les paragraphes sont signalés par des milestones)
      • possibilité de créer un corpus de travail, d'ajouter des textes par fichiers ou par formulaire
      • environnement : tableau de fréquences et de concordance, possibilité de corriger l'annotation morphosyntaxique (et de traiter toutes les occurrences à la fois), possibilité d'exporter en XML-TEI ou directement dans TXM
    • Unitex/gramLab
      • suite logicielle libre et multilingue d'analyse de corpus
      • entrée : texte brut (ou déjà pré-traité, voir ensuite) au format Unicode Little-Endian
      • pré-traitement : normalisation des séparateurs et formes non-ambiguës, découpage en phrases et unités lexicales (différents types possibles), application de dictionnaires (sous-ensembles de dictionnaires pré-définis sur la base des formes présentes dans le texte)
      • principaux objets manipulés (construction automatisable) : dictionnaires, grammaires, lexiques-grammaires
      • environnement : recherche dans le texte avec expressions rationnelles (syntaxe propre), le résultat apparaît dans un concordancier
      • possibilité de construire un “automate du texte” pour recouvrir tous les étiquetages possibles des enchaînements de formes, et de choisir le meilleur chemin via un modèle statistique entraîné sur un corpus annoté et/ou par sélection manuelle
      • possibilité de détecter les entités nommées avec une “cascade de transducteurs” dédiée dans l’outil CasSys
    • Pyrrha : plateforme, méthodo associée ? hébergement possible/pertinent ?
      • support : application web
      • entrée : texte brut ou tsv annoté (forme+lemme+POS+morph) ; pour tokenizer, possibilité d'utiliser une liste contrôle (lemme+POS+morph) existante (pas d'Early Modern English) ou à écrire soi-même (un champ pour chaque propriété)
      • environnement : tableau affichant token (forme+lemme+POS+morph), contexte, fréquence, possibilité de modifier directement dedans
      • lorsqu'on effectue une correction, possibilité de corriger automatiquement les tokens similaires
  • abréviations
    • réinsérer les points finaux situés en dehors
    • stratégie d'encodage des phrases '<s>'
    • stratégie d'expansion ou pas
    • expansion : 'vers.', 'ver.', 'v.' → 'verse'
      • formes correspondantes : 'verse', 'verse', 'verse'
        • cas sing/plu ? : ver. 1, 2 → verses 1, 2
      • lemmes correspondants : 'verse', 'verse', 'verse'
        • cas sing/plu ? : ver. 1, 2 → verse 1, 2
  • xml:id
    • mots ajoutés qui n'ont pas d'xml:id → décide d'une stratégie de ré-identification
    • dupliquer xml:id dans 'oid' dans une .xsl front
    • copier la valeur de la propriété 'oid' dans le menu contextuel de l'édition
  • ponctuation inconnue
    • régulariser à partir d'une l'édition synoptique ou de l'édition critique en cas de doute ; signalement de la forme d'origine d'une manière ou d'une autre dans la balise <pc> ?
  • Points dans les nombres
    • il s’agit soit de points suivant un numéro de section en chiffres romains (exemple : “VIII. From hence also we may understand…”) , soit de points séparant ou suivant des numéros de chapitres/versets en chiffres arabes (exemple : Mar.10.38.&Luk.12.50.)
    • Quel statut donner au point dans chacun de ces cas ? Décide-t-on de les inclure au nombre qui les précède ou non ?
  • Statut des phrases
    • Veut-on conserver la segmentation du texte en phrases, pour l’instant signalée (avec des erreurs) par l’attribut unit=”sentence” dans les balises <pc> ?
    • Cette information sera (provisoirement) perdue si on applique une stratégie d'inclusion systématique du point au nombre qui précède
    • Si on souhaite la conserver, quelle stratégie adopte-t-on lorsqu'un point appartient à la fois à un mot/nombre et marque la fin d'une phrase ?
  • Numérotation des sections
    • Décide-t-on d'attribuer aux sections successives une numérotation naturelle lorsque celle-ci n'est n'est pas explicite dans les fac-similés ? (exemple : les parties Liberty, Empire et Religion de De Cive que l'on pourrait numéroter 1, 2 et 3) Cette question se pose aussi dans le cas des paragraphes, qui pour l'instant ne portent aucune numérotation
      • MC : je répondrais oui dans les deux cas dans la mesure où ça faciliterait la construction de partitions/sous-corpus tout en n'engageant à rien (on peut très bien ne pas s'en servir par la suite)
      • FR : oui, mais on applique le système de numérotation utilisé par les éditions critiques de référence. Ce système peut se présenter de trois façons différentes :
        1. Cas 'Partie-chapitre-paragraphe' - Exemple : I.i.9 (ou I.i.9-15)
          1. Il utilise : 1) Les chiffres romaines majuscules pour les parties ; 2) Les chiffres romaines minuscules pour les chapitres ; 3) Les chiffres arabes pour les sections/paragraphes
          2. Il permet de véhiculer l'information la plus complète possible
          3. C'est habituallement utilisé pour The Elements of Law (voir Malcolm)
        2. Cas 'Chapitre-paragraphe' - Exemple : I.9 (ou I.9-15)
          1. Il utilise : 1) Les chiffres romaines majuscules pour les chapitres ; 2) Les chiffres arabes pour les sections/paragraphes
          2. Il véhicule une information suffisamment complète pour repérer un passage dans le texte
          3. C'est habituellement utilisé pour le De cive (voir Malcolm)
          4. MC : dans l'édition critique de De cive (du moins celle dont je dispose, Howard Warrender), mes sections/paragraphes sont aussi introduits par des chiffres romains et majuscules
        3. Cas 'Absence de numérotation' - Exemple : Leviathan, p. 70 (ou Leviathan, pp. 70-72)
          1. Il utilise le numéro de page de l'édition critique de référence ; dans une note, il peut inclure une référence au chapitre en question : Ch. 21 (p. 346). Il pourrait aussi inclure une référence au numéro de page de la première édition imprimée correpondante (Leviathan, p. 70 [48])
          2. Il véhicule une information incomplète, supposant l'usage de l'édition critique de référence
          3. C'est utilisé par Malcolm pour faire référence à sa propre édition du Leviathan
        • On adopte le premier cas, car il est le plus exhaustif, et on l'applique de manière homogène à tous les ouvrages
        • Mais attention : quoi faire avec les sections liminaires des ouvrages et leurs paragraphes ?
          1. Exemples
            1. The Epistle Dedicatory et The Authors Preface to the Reader dans le De Cive ;
            2. The Epistle Dedicatory, The Introduction et A Review, and Conclusion dans le Leviathan
          2. Solutions possibles
            1. Au minimum, on identifie ces sections comme distinctes (sans en numéroter les paragraphes). En général, la communauté scientifique cite ces sections par leur titre ;
            2. Au maximum, on identifie ces sections comme distinctes et on en numérote les paragraphes. Dans ce cas-là, il serait opportun d'utiliser la numérotation des éditions critiques qui ont décidé de l'introduire : voir l'édition Warrender pour le De cive et l'édition Curley pour le Leviathan
              1. MC : je pense opter pour cette solution
              2. FR : dans ce cas-là, il est opportun de bien veiller à utiliser les mêmes conventions graphiques (par exemple, les crochets pour les numérotations des sections/paragraphes introduites par l'éditeur critique).
    • Quelle solution de numérotation privilégier lorsque plusieurs paragraphes constituent une seule section ? S'il n'est pas pertinent de rajouter un niveau de div, puisque ce phénomène est marginal et correspond à des annotations ajoutées dans la deuxième édition, on pourrait ajouter dans l'attribut @n des balises <p> un suffixe alphabétique au numéro de section (exemple : 2-a, 2-b, 2-c, 2-d) (suggestion de Bénédicte). Cela nous permettrait d'assimiler tout paragraphe à une section en conservant la possibilité de l'identifier individuellement.
    • Si l'on veut signaler le statut particulier de ces paragraphes supplémentaires, on peut envisager l'utilisation de la balise <annotation> (à discuter avec quelqu'un qui maîtrise la TEI, comme Alexei).
    • FR : cette proposition me semble particulièrement intéressante, car elle permettrait de mettre en évidence toutes les réponses des Hobbes aux objections reçues
    • Est-ce qu’on veut encapsuler dans une autre balise que <w> les nombres introduisant (dans le texte) les sections, ou carrément les retirer des transcriptions et les afficher dans TXM à partir d’une opération effectuée sur l’attribut @n desdites sections ?
    • FR : à mon avis, il est opportun d'aborder cette question dans une optique systémique. Quelle est la stratégie actuellement utilisée pour la numérotation des parties et des chapitres ? Et quelle est la pratique courante en termes de calcul de mots d'un ouvrage ?
public/dth/workflow-corpus.txt · Dernière modification: 2020/10/14 11:53 par francesca.rebasti@ens-lyon.fr