Outils pour utilisateurs

Outils du site


public:dth:synthese-stage

Rapport de synthèse du stage de Michel Capot

  • Régularisation des lettres et mots manquants (alphabet latin) signalés par les caractères ● et〈◊〉
    • vérification dans les fac-similés EEBO si la qualité le permet, sinon dans ceux issus de la BIS, de la BNF et de l'HAB ; à défaut, recours à l'édition critique (Oxford Scholarly Editions Online: Early Seventeenth Century)
    • encapsulation de la transcription originale dans la balise <orig> et de la forme régularisée en suivant dans la balise <reg>, le tout enrobé dans la balise <choice>
      • utilisation d'expressions régulières pour faciliter le processus
    • requête TXM pour s'assurer, dans les cas litigieux, que la forme régularisée existe ailleurs dans le corpus
    • fusion/dissociation des mots mal segmentés
  • Régularisation des attributs @lem, @pos et @reg pour les mots régularisés
    • Requête TXM pour vérifier le lemme, la POS et l'orthographe modernisée associés à un mot
  • Transcription des mots grecs (tous manquants) signalés par le caractère〈◊〉ou par l'expression {non-Roman}
    • vérification dans les fac-similés EEBO si la qualité le permet, sinon dans ceux issus de la BIS, de la BNF et de l'HAB ; à défaut, recours à l'édition critique (Oxford Scholarly Editions Online: Early Seventeenth Century, ou collection Routledge Revivals pour les deux premiers textes)
    • suppression des lignes encodant des mots grecs inexistants (faussement identifiés dans la transcription)
    • remplacement de la balise <seg> par la balise <foreign> pour encapsuler les mots ou passages en grec
  • Régularisation des signes de ponctuation indéterminés
    • vérification dans les fac-similés EEBO si la qualité le permet, sinon dans ceux issus de la BIS, de la BNF et de l'HAB ; à défaut, recours à l'édition critique (Oxford Scholarly Editions Online: Early Seventeenth Century, ou collection Routledge Revivals pour les deux premiers textes)
  • Contribution à la création d'un corpus TXM synoptique (transcription + 2 fac-similés)
    • Relevé des erreurs de correspondance entre pages
    • Proposition de solutions techniques pour résoudre ces erreurs
      • Ajout/suppression de balises <pb> pour que la transcription compte le même nombre de pages que les fac-similés, et que ces pages soient correctement segmentées
      • Re-numérotation manuelle des pages blanches et des pages mal numérotées dans les trois premiers textes
      • Re-numérotation automatisée de toutes les pages du Léviathan avec la création et l'exécution d'un script python utilisant le module 're'
      • Ajout des liens vers les deux fac-similés avec l'exécution de scripts groovy (fournis par Serge)
      • Modification de ces liens pour que la correspondance soit préservée dans les cas particuliers (pages inutilisées ou manquantes dans les fac-similés) avec la création et l'exécution d'un script python utilisant le module 're'
  • Intégration des points au mot (abréviation) ou au nombre (numéro de chapitre, ou de verset) auquel ils se rapportent
    • Intégration manuelle du point aux abréviations
    • Intégration automatisée du point aux nombres avec la création et l'application d'une feuille xsl (avec l'aide d'Alexis)
    • Séparation automatisée des nombres concaténés par un point avec la création et l'exécution d'un script python utilisant le module 're'
  • Régularisation de la structuration et de la numérotation des parties/chapitres de l'oeuvre
    • Régularisation manuelle pour les parties
    • Numérotation automatisée des chapitres avec la création et l'exécution d'un script python utilisant le module 're'
  • Rédaction de documentation concernant les phénomènes observés dans les transcriptions, les choix d'encodage mis en oeuvre, les solutions algorithmiques employées, l'étiquetage morphosyntaxique fourni par MorphAdorner…
public/dth/synthese-stage.txt · Dernière modification: 2020/10/09 15:44 par michel-capot@live.fr