Outils pour utilisateurs

Outils du site


public:dth:workflow-corpus

Chantier de finalisation du corpus Early Modern English Hobbes 10

A. Philologie numérique : représentation XML-TEI

  1. Vérification et correction du texte de base des transcriptions TCP relues et instrumentées par EarlyPrint, puis annotées linguistiquement et vérifiées par NWU
    1. Sur la base des défauts connus des transcriptions EarlyPrint :
        1. MC : tâche terminée
      1. ponctuation inconnue (voir plus bas)
        1. MC : tâche terminée
    2. Corrections spécifiques :
      1. abréviations (voir plus bas)
    3. Sur la base d’une lecture intégrale de l'édition TXM des transcriptions :
      1. corriger l'orthographe des formes et adapter si nécessaire les lemmes et pos correspondants
      2. corriger les mises en forme (italique…)
      3. délimitation des répétitions (mots, lignes)
  2. Sur la base des images EEBO et de leurs défauts connus : numéro de page, échange de pages
  3. Composition de 2 des textes pour construire « The Elements of Law »
  4. Instrumentation des transcriptions pour leur import dans TXM
    1. Insertion des liens aux images EEBO, BIS, BnF, WDB
      1. MC : tâche terminée
      2. FR :
        1. images de fac-similé du De Corpore Politico (BnF) manquantes
        2. tableau des sciences du chapitre 9 du Leviathan (WDB) manquant
          → prise de contact avec la BnF et la WDB effectuée : en attente de réponse
    2. Insertion des sauts de page additionnels des éditions critiques
    3. Vérification et correction du balisage et de la numérotation des sections des textes et paragraphes (pour le Léviathan)
      • faire des vérifications par extraction pour les paragraphes
      • insérer les numérotations critiques (paragraphes du Léviathan)
    4. Insertion, vérification et affichage des marginalia

Questions philologiques générales

  • abréviations
    • réinsérer les points finaux situés en dehors
    • stratégie d'encodage des phrases '<s>'
    • stratégie d'expansion ou pas
    • expansion : 'vers.', 'ver.', 'v.' → 'verse'
      • formes correspondantes : 'verse', 'verse', 'verse'
        • cas sing/plu ? : ver. 1, 2 → verses 1, 2
      • lemmes correspondants : 'verse', 'verse', 'verse'
        • cas sing/plu ? : ver. 1, 2 → verse 1, 2
    • FR traitement des abréviations des livres bibliques
      • on régularise l'abréviation, en utilisant la liste des abréviations modernes ;
      • on corrige le lemme, en indiquant le lemme correspondant à l'abréviation régularisée
  • xml:id
    • mots ajoutés qui n'ont pas d'xml:id → décide d'une stratégie de ré-identification
    • dupliquer xml:id dans 'oid' dans une .xsl front
    • copier la valeur de la propriété 'oid' dans le menu contextuel de l'édition
  • ponctuation inconnue
    • régulariser à partir d'une l'édition synoptique ou de l'édition critique en cas de doute ; signalement de la forme d'origine d'une manière ou d'une autre dans la balise <pc> ?
  • Points dans les nombres
    • il s’agit soit de points suivant un numéro de section en chiffres romains (exemple : “VIII. From hence also we may understand…”) , soit de points séparant ou suivant des numéros de chapitres/versets en chiffres arabes (exemple : Mar.10.38.&Luk.12.50.)
    • Quel statut donner au point dans chacun de ces cas ? Décide-t-on de les inclure au nombre qui les précède ou non ?
  • Statut des phrases
    • Veut-on conserver la segmentation du texte en phrases, pour l’instant signalée (avec des erreurs) par l’attribut unit=”sentence” dans les balises <pc> ?
    • Cette information sera (provisoirement) perdue si on applique une stratégie d'inclusion systématique du point au nombre qui précède
    • Si on souhaite la conserver, quelle stratégie adopte-t-on lorsqu'un point appartient à la fois à un mot/nombre et marque la fin d'une phrase ?
  • Numérotation des sections
    • Décide-t-on d'attribuer aux sections successives une numérotation naturelle lorsque celle-ci n'est n'est pas explicite dans les fac-similés ? (exemple : les parties Liberty, Empire et Religion de De Cive que l'on pourrait numéroter 1, 2 et 3) Cette question se pose aussi dans le cas des paragraphes, qui pour l'instant ne portent aucune numérotation
      • MC : je répondrais oui dans les deux cas dans la mesure où ça faciliterait la construction de partitions/sous-corpus tout en n'engageant à rien (on peut très bien ne pas s'en servir par la suite)
      • FR : oui, mais on applique le système de numérotation utilisé par les éditions critiques de référence. Ce système peut se présenter de trois façons différentes :
        1. Cas 'Partie-chapitre-paragraphe' - Exemple : I.i.9 (ou I.i.9-15)
          1. Il utilise : 1) Les chiffres romaines majuscules pour les parties ; 2) Les chiffres romaines minuscules pour les chapitres ; 3) Les chiffres arabes pour les sections/paragraphes
          2. Il permet de véhiculer l'information la plus complète possible
          3. C'est habituallement utilisé pour The Elements of Law (voir Malcolm)
        2. Cas 'Chapitre-paragraphe' - Exemple : I.9 (ou I.9-15)
          1. Il utilise : 1) Les chiffres romaines majuscules pour les chapitres ; 2) Les chiffres arabes pour les sections/paragraphes
          2. Il véhicule une information suffisamment complète pour repérer un passage dans le texte
          3. C'est habituellement utilisé pour le De cive (voir Malcolm)
          4. MC : dans l'édition critique de De cive (du moins celle dont je dispose, Howard Warrender), mes sections/paragraphes sont aussi introduits par des chiffres romains et majuscules
        3. Cas 'Absence de numérotation' - Exemple : Leviathan, p. 70 (ou Leviathan, pp. 70-72)
          1. Il utilise le numéro de page de l'édition critique de référence ; dans une note, il peut inclure une référence au chapitre en question : Ch. 21 (p. 346). Il pourrait aussi inclure une référence au numéro de page de la première édition imprimée correpondante (Leviathan, p. 70 [48])
          2. Il véhicule une information incomplète, supposant l'usage de l'édition critique de référence
          3. C'est utilisé par Malcolm pour faire référence à sa propre édition du Leviathan
        • On adopte le premier cas, car il est le plus exhaustif, et on l'applique de manière homogène à tous les ouvrages
        • Mais attention : quoi faire avec les sections liminaires des ouvrages et leurs paragraphes ?
          1. Exemples
            1. The Epistle Dedicatory et The Authors Preface to the Reader dans le De Cive ;
            2. The Epistle Dedicatory, The Introduction et A Review, and Conclusion dans le Leviathan
          2. Solutions possibles
            1. Au minimum, on identifie ces sections comme distinctes (sans en numéroter les paragraphes). En général, la communauté scientifique cite ces sections par leur titre ;
            2. Au maximum, on identifie ces sections comme distinctes et on en numérote les paragraphes. Dans ce cas-là, il serait opportun d'utiliser la numérotation des éditions critiques qui ont décidé de l'introduire : voir l'édition Warrender pour le De cive et l'édition Curley pour le Leviathan
              1. MC : je pense opter pour cette solution
              2. FR : dans ce cas-là, il est opportun de bien veiller à utiliser les mêmes conventions graphiques (par exemple, les crochets pour les numérotations des sections/paragraphes introduites par l'éditeur critique).
    • Quelle solution de numérotation privilégier lorsque plusieurs paragraphes constituent une seule section ? S'il n'est pas pertinent de rajouter un niveau de div, puisque ce phénomène est marginal et correspond à des annotations ajoutées dans la deuxième édition, on pourrait ajouter dans l'attribut @n des balises <p> un suffixe alphabétique au numéro de section (exemple : 2-a, 2-b, 2-c, 2-d) (suggestion de Bénédicte). Cela nous permettrait d'assimiler tout paragraphe à une section en conservant la possibilité de l'identifier individuellement.
    • Si l'on veut signaler le statut particulier de ces paragraphes supplémentaires, on peut envisager l'utilisation de la balise <annotation> (à discuter avec quelqu'un qui maîtrise la TEI, comme Alexei).
    • FR : cette proposition me semble particulièrement intéressante, car elle permettrait de mettre en évidence toutes les réponses des Hobbes aux objections reçues
    • Est-ce qu’on veut encapsuler dans une autre balise que <w> les nombres introduisant (dans le texte) les sections, ou carrément les retirer des transcriptions et les afficher dans TXM à partir d’une opération effectuée sur l’attribut @n desdites sections ?
    • FR : à mon avis, il est opportun d'aborder cette question dans une optique systémique. Quelle est la stratégie actuellement utilisée pour la numérotation des parties et des chapitres ? Et quelle est la pratique courante en termes de calcul de mots d'un ouvrage ?

Discussion sur le protocole EEBO-TCP

  • Quel que soit le nombre de mots grecs réellement présents dans le texte, la transcription en encode toujours cinq
    • On rétablit le texte grec sans signaler cette erreur de transcription comme “originelle”
  • au moins un mot contient un 0 à la place d’un O (“0bject”)

Questions philologiques texte par texte

  • Humane nature
    • Interrogation sur le mot “mixed” (page 80 de Humane Nature, ligne 15), qui est rayé dans le fac-similé EEBO mais pas dans le fac-similé de la BIS
    • Dans le premier, il y a une note manuscrite à côté de cette rayure : faut-il la prendre en compte ?
      • On ne connaît pas la provenance de cette rayure et de cette note, on considère donc qu'elles n'appartiennent pas au texte
      • FR : cette question dépasse le périmètre scientifique du projet DTH
  • De corpore politico
    • Interrogation quant aux mots et signes de ponctuation “mangés” (entre autres sur les bords des fac-similés) : exemple “it consisteth”, page 167 : la dernière transcription présente seulement le mot “●●consisteth” (alors que la transcription initiale présente deux mots, un inconnu et “consisteth”), donc si on rétablit le “it”, doit-on signaler d’une certaine manière qu’il s’agit d’une transcription régularisée et non originale ?
      • On régularise de la manière suivante : <w><orig/><reg>it</reg></w> puis <w><orig>●●consisteth</orig><reg>consisteth</reg></w>
    • page 110, ligne 4 en partant de la fin, hésitation entre “super ructions” et “superstructions” ?
      • Il s'agit de “superstructions” : plusieurs occurrences proches dans le texte de ce terme
    • incertitude sur un signe de ponctuation indéterminé dans la transcription (il y a peut-être un mot “mangé” à cet endroit) tout au bas de la page 83 du pdf EEBO : “chuse a new” … ?
      • MC : correction effectuée avec l'édition critique
  • De cive
    • Question sur un mot lisible mais dont je ne comprends pas la signification, ligne 7 page 326 : “we must therefore ro resolve…”
      • Il s'agit manifestement d'une erreur d'impression : ce mot est censé être “to” (à signaler dans l'attribut @reg)
    • Page 336, 6e ligne en partant de la fin, interrogation sur le mot entre “read” et “in vain”
      • “read it in vain”
    • Quand plusieurs lettres manquent (parfois une seule), elles sont souvent transcrites “●…” au lieu de “●●” (ou “●”) comme dans les deux premiers textes
    • Caractère inconnu (ou raturé) juste après “Mosaicall Covenant” au milieu de la page 283
      • Recours à l'édition critique : il n'y a rien après “Covenant”
    • Déchiffrage difficile des mots grecs sur la première page de De cive, même chose page 115 ligne 8, page 329 5e ligne de la section XXVI
      • Recours à l'édition critique (sauf pour la première page, dont le texte n'est pas reproduit)
    • mot inconnu dans une note page 58 ; illisible sur le fac-similé EEBO, taché sur le fac-similé de la BIS
      • MC : correction effectuée avec l'édition critique
    • L’édition critique écrit Ζῶον πολικονον au lieu de Ζῶον πολιτικον (page 46 du pdf EEBO) : erreur de leur part ?
    • J’ai fait le choix de transformer “100L”, page 71 du pdf EEBO, en “100” puis “L”, en comptant “L” comme une abréviation à part entière
    • “Ægypt” est transcrit systématiquement “Aegypt” (exemple : p322 du pdf)
    • il manquait l’attribut @n du chapitre 17 (ajout effectué)
    • table des matières : pas de <div type=”part”> pour les différentes parties du livre (ajout effectué)
  • Leviathan
    • dans la transcription, il existe un “trou” de 6 pages qu’on ne retrouve pas dans le pdf EEBO
      • L'absence de ce trou provient de la segmentation du pdf ; il a bien sa place dans la transcription
    • Dans les tableaux des sciences, page 52 du pdf EEBO, les suites de points sont identifiés comme des mots (exemple : <w lemma=“……………” pos=“sy” xml:id=“A43998-026-a-2510”>……………</w>)
    • Quel statut philologique pour le point qui suit “22” dans l’exemple suivant (qui suit un motif récurrent dans le Leviathan) : “The fift place, is that of Matth. 5.22. Whosoever is angry with his Brother without a cause, shall be guilty in Iudgement.” Considère-t-on qu’il marque une fin de phrase ou non ?
    • table des matières : il y a une <div n=”.”> pour les chapitres de la 2,3 et 4eme partie mais pas de <div n=”1”> pour ceux de la première (ajout effectué)
    • Quel statut pour la phrase “Place this Table between folio 40. and 41.” ? (elle est considérée dans la transcription comme un paragraphe du chapitre IX)
    • page 160 du pdf EEBO, chapitre 26, la section allant de “1. The edicts…” à “… of England.” n’est pas un paragraphe, mais est présentée comme telle dans l’édition critique

B. Annotation linguistique des fichiers XML-TEI par MorphAdorner

  1. (Neo-Latin) Préparation ou Réglage de la tokenization pour les outils [réalisé par NWU]
  2. Tokenisation [réalisé par NWU]
  3. Étiquetage morphosyntaxique [réalisé par NWU]
  4. Lemmatisation [réalisé par NWU]
  5. Correction de l'étiquetage et des lemmes
    1. une première passe de correction a été réalisée par Martin Mueller (NWU)
    2. vérification et correction par concordance de la lemmatisation NorthWestern
      1. Vérification de la lemmatisation des errata
      2. Vérification de la lemmatisation de mots contenant de lacunes
      3. Vérification de la lemmatisation des mots étrangers
      4. Vérification des lemmes
  6. Injection des résultats dans les fichiers XML-TEI

Stratégies de correction POS+LEMME possibles (hors TXM)

  • compte-rendu Martin Mueller (NWU, Hobbes), SQL hébergement possible/pertinent ?
    • support : base de données Postgres (locale ?) avec interface utilisateur
    • environnement : tableau affichant token (forme+lemme+POS), contexte, fréquence, possibilité de modifier directement dedans
    • méthode : après exclusion des mots “grammaticaux”, correction sur un échantillon aléatoire de mots fréquents (freq >= 5) et sur l'ensemble des mots rares (freq < 5)
    • repérage des erreurs : constat ou recherche de motifs de POS “impossibles”
    • erreurs les plus fréquentes : noms propres et participes présent “faux positifs”, formes identiques d'une POS à une autre
  • compte-rendu Naomi Kanaka (Paris 1, BFM), Palm hébergement possible/pertinent ?
    • PALM = plateforme web de normalisation orthographique et de lemmatistion semi-automatiques de textes médiévaux en anglais, français
    • entrée : texte brut (a priori ; dans la démo, seuls les paragraphes sont signalés par des milestones)
    • possibilité de créer un corpus de travail, d'ajouter des textes par fichiers ou par formulaire
    • environnement : tableau de fréquences et de concordance, possibilité de corriger l'annotation morphosyntaxique (et de traiter toutes les occurrences à la fois), possibilité d'exporter en XML-TEI ou directement dans TXM
  • Unitex/gramLab
    • suite logicielle libre et multilingue d'analyse de corpus
    • entrée : texte brut (ou déjà pré-traité, voir ensuite) au format Unicode Little-Endian
    • pré-traitement : normalisation des séparateurs et formes non-ambiguës, découpage en phrases et unités lexicales (différents types possibles), application de dictionnaires (sous-ensembles de dictionnaires pré-définis sur la base des formes présentes dans le texte)
    • principaux objets manipulés (construction automatisable) : dictionnaires, grammaires, lexiques-grammaires
    • environnement : recherche dans le texte avec expressions rationnelles (syntaxe propre), le résultat apparaît dans un concordancier
    • possibilité de construire un “automate du texte” pour recouvrir tous les étiquetages possibles des enchaînements de formes, et de choisir le meilleur chemin via un modèle statistique entraîné sur un corpus annoté et/ou par sélection manuelle
    • possibilité de détecter les entités nommées avec une “cascade de transducteurs” dédiée dans l’outil CasSys
  • Pyrrha : plateforme, méthodo associée ? hébergement possible/pertinent ?
    • support : application web
    • entrée : texte brut ou tsv annoté (forme+lemme+POS+morph) ; pour tokenizer, possibilité d'utiliser une liste contrôle (lemme+POS+morph) existante (pas d'Early Modern English) ou à écrire soi-même (un champ pour chaque propriété)
    • environnement : tableau affichant token (forme+lemme+POS+morph), contexte, fréquence, possibilité de modifier directement dedans
    • lorsqu'on effectue une correction, possibilité de corriger automatiquement les tokens similaires

Discussion sur le protocole MorphAdorner + Marin Mueller

  • Certains mots présentent différentes POS au fil du corpus alors qu’il est bien censé s’agir de la même (exemple : “either”, du moins lorsqu’il est utilisé dans l’expression “either/or”, est alternativement étiqueté “av-d”, “d” ou “av”)
  • Quelle pos considère-t-on quand un mot d'une certaine nature est employé avec une autre fonction ? Exemple : “mixed”, page 80 ligne 15 de Humane Nature, qui est un participe passé employé comme adjectif
  • Que faut-il faire lorsqu’un signe de ponctuation a été encodé comme un mot ? simplement mettre la balise <pc> à la place de la balise <w>, ou conserver d’une manière ou d’une autre la transcription originale ?
    • Lorsqu'il n'y a pas d'ambiguïté, on se contente de corriger
  • Peut-on mettre deux mots distincts dans l’attribut @reg d’un mot unique (déjà observé dans le corpus lorsque les deux mots sont séparés par une apostrophe) ? Quid du lemme et de la POS dans ce cas-là ? Exemple : reg=“it is” pour le mot “its”, page 259 du pdf EEBO de De cive, ligne 7 de la section VII
    • lorsqu’on a affaire à un ‘s du verbe être (du type “it’s”), il est écrit dans la transcription <w join=”right”>it</w><w>’s</w>, donc ici on écrira <w join=“right”><choice><orig>its</orig><reg>it</reg></choice></w><w><choice><orig/><reg>is</reg></choice></w>
  • quand plusieurs mots latins se succèdent, ils sont encapsulés dans la balise <foreign>, mais d’autres sont simplement signalés par une POS “fla” : faut-il faire la même chose pour le grec ? ou au contraire encapsuler tout mot étranger dans une balise <foreign> ?
  • certains mots anglais (et reconnus comme tels au vu des lemmes/POS) sont encapsulés dans une balise <foreign> avec les mots étrangers qui les suivent
  • quel lemme pour les chiffres romains (pour l’instant, le lemme est le chiffre romain passé en minuscules) ?
  • problème de lemmatisation des mots en majuscules : soit le lemme est tout en majuscules, soit tout en minuscules (même pour les noms propres reconnus comme tels)
  • certains mots en latin ne sont signalés par aucune balise <foreign> ou <seg> (et ne peuvent donc pas être repérés en recherchant xml:lang=”lat”)
  • certains nombres qui se suivent sont comptés comme un seul mot avec un point au milieu
    • MC : script de “split” réalisé
  • parfois, une parenthèse est marquée unit=”sentence” ; parfois deux unit=”sentence” se suivent directement (du type <pc unit=“sentence” xml:id=“A43998-004-b-0121”>.</pc><pc unit=“sentence” xml:id=“A43998-004-b-0130”/>)

C. Import des fichiers dans TXM et vérification du corpus

  1. Création du cahier des charges d'import du corpus (déposé dans Sharedocs)
    • MC : tâche terminée
  2. Création du fichier des métadonnées
  3. Réglage des paramètres d’import
    • plans textuels
      • hors texte : teiHeader
      • hors texte à éditer : répétitions de texte dans les images EEBO, parties liminaires
      • notes
  4. Import du corpus dans TXM
  5. Documentation de l'exploitation du corpus Hobbes 10 (déposé dans Sharedocs, en cours)
  6. Recette
    1. Vérification systématique
      • de l’exactitude des partitions des ouvrages et de leur affichage dans les graphiques de progression
      • de la référence de concordance du premier mot de chaque section : numéro section, numéro de page, numéro de paragraphe

Discussion

  • Import TXM avec les dernières versions des transcriptions : il faudrait modifier les feuilles xsl pour que le contenu des balises <orig> ne se retrouve pas dans le texte affiché mais seulement le contenu des balises <reg>
  • lorsqu’on crée un index avec la requête [word=”non-Roman”] et qu’on clique sur une occurrence, TXM affiche la page qui succède directement à celle qui contient l’occurrence ; ça ne semble pas être le cas avec un token “normal”

D. Annotation sémantique : représentation XML-TEI TXM

  1. Conception d’un système d’annotation intégré (5.2.+5.3.+5.4.) en vue de 5.5. et 5.6..
    1. Création de la structure d’annotation
    2. Vérification de la constitution du champ « réf »
  2. Annotation URS automatique des références bibliques, à partir d’une requête CQL
    1. Vérification et optimisation de la requête CQL pour les références bibliques
    2. Lancement de la macro « HobbesConcordancetoUnit » pour créer autant d'unités URS que de matchs de la requête CQL
    3. Vérification et correction des unités
      • parcours intégral
      • recherche partielle : URS2CQP + Concordance, Index, etc.
  3. Annotation URS manuelle des références bibliques non attrapées par la requête
  4. Annotation URS manuelle des références bibliques critiques
  5. Extraction semi-automatique des citations explicites
  6. Génération automatique des index diplomatiques et critiques
public/dth/workflow-corpus.txt · Dernière modification: 2020/10/28 14:54 par slh@ens-lyon.fr