Outils pour utilisateurs

Outils du site


public:dth:transcriptions-etiquetage

Transcription et étiquetage

Questions philologiques

  • Humane nature
    • Interrogation sur le mot “mixed” (page 80 de Humane Nature, ligne 15), qui est rayé dans le fac-similé EEBO mais pas dans le fac-similé de la BIS
    • Dans le premier, il y a une note manuscrite à côté de cette rayure : faut-il la prendre en compte ?
      • On ne connaît pas la provenance de cette rayure et de cette note, on considère donc qu'elles n'appartiennent pas au texte
      • FR : cette question dépasse le périmètre scientifique du projet DTH
  • De corpore politico
    • Interrogation quant aux mots et signes de ponctuation “mangés” (entre autres sur les bords des fac-similés) : exemple “it consisteth”, page 167 : la dernière transcription présente seulement le mot “●●consisteth” (alors que la transcription initiale présente deux mots, un inconnu et “consisteth”), donc si on rétablit le “it”, doit-on signaler d’une certaine manière qu’il s’agit d’une transcription régularisée et non originale ?
      • On régularise de la manière suivante : <w><orig/><reg>it</reg></w> puis <w><orig>●●consisteth</orig><reg>consisteth</reg></w>
    • page 110, ligne 4 en partant de la fin, hésitation entre “super ructions” et “superstructions” ?
      • Il s'agit de “superstructions” : plusieurs occurrences proches dans le texte de ce terme
    • incertitude sur un signe de ponctuation indéterminé dans la transcription (il y a peut-être un mot “mangé” à cet endroit) tout au bas de la page 83 du pdf EEBO : “chuse a new” … ?
      • MC : correction effectuée avec l'édition critique
  • De cive
    • Question sur un mot lisible mais dont je ne comprends pas la signification, ligne 7 page 326 : “we must therefore ro resolve…”
      • Il s'agit manifestement d'une erreur d'impression : ce mot est censé être “to” (à signaler dans l'attribut @reg)
    • Page 336, 6e ligne en partant de la fin, interrogation sur le mot entre “read” et “in vain”
      • “read it in vain”
    • Quand plusieurs lettres manquent (parfois une seule), elles sont souvent transcrites “●…” au lieu de “●●” (ou “●”) comme dans les deux premiers textes
    • Caractère inconnu (ou raturé) juste après “Mosaicall Covenant” au milieu de la page 283
      • Recours à l'édition critique : il n'y a rien après “Covenant”
    • Déchiffrage difficile des mots grecs sur la première page de De cive, même chose page 115 ligne 8, page 329 5e ligne de la section XXVI
      • Recours à l'édition critique (sauf pour la première page, dont le texte n'est pas reproduit)
    • mot inconnu dans une note page 58 ; illisible sur le fac-similé EEBO, taché sur le fac-similé de la BIS
      • MC : correction effectuée avec l'édition critique
    • L’édition critique écrit Ζῶον πολικονον au lieu de Ζῶον πολιτικον (page 46 du pdf EEBO) : erreur de leur part ?
    • J’ai fait le choix de transformer “100L”, page 71 du pdf EEBO, en “100” puis “L”, en comptant “L” comme une abréviation à part entière
    • “Ægypt” est transcrit systématiquement “Aegypt” (exemple : p322 du pdf)
    • il manquait l’attribut @n du chapitre 17 (ajout effectué)
    • table des matières : pas de <div type=”part”> pour les différentes parties du livre (ajout effectué)
  • Leviathan
    • dans la transcription, il existe un “trou” de 6 pages qu’on ne retrouve pas dans le pdf EEBO
      • L'absence de ce trou provient de la segmentation du pdf ; il a bien sa place dans la transcription
    • Dans les tableaux des sciences, page 52 du pdf EEBO, les suites de points sont identifiés comme des mots (exemple : <w lemma=“……………” pos=“sy” xml:id=“A43998-026-a-2510”>……………</w>)
    • Quel statut philologique pour le point qui suit “22” dans l’exemple suivant (qui suit un motif récurrent dans le Leviathan) : “The fift place, is that of Matth. 5.22. Whosoever is angry with his Brother without a cause, shall be guilty in Iudgement.” Considère-t-on qu’il marque une fin de phrase ou non ?
    • table des matières : il y a une <div n=”.”> pour les chapitres de la 2,3 et 4eme partie mais pas de <div n=”1”> pour ceux de la première (ajout effectué)
    • Quel statut pour la phrase “Place this Table between folio 40. and 41.” ? (elle est considérée dans la transcription comme un paragraphe du chapitre IX)
    • page 160 du pdf EEBO, chapitre 26, la section allant de “1. The edicts…” à “… of England.” n’est pas un paragraphe, mais est présentée comme telle dans l’édition critique

Discussion sur le protocole MorphAdorner + Marin Mueller

  • Certains mots présentent différentes POS au fil du corpus alors qu’il est bien censé s’agir de la même (exemple : “either”, du moins lorsqu’il est utilisé dans l’expression “either/or”, est alternativement étiqueté “av-d”, “d” ou “av”)
  • Quelle pos considère-t-on quand un mot d'une certaine nature est employé avec une autre fonction ? Exemple : “mixed”, page 80 ligne 15 de Humane Nature, qui est un participe passé employé comme adjectif
  • Que faut-il faire lorsqu’un signe de ponctuation a été encodé comme un mot ? simplement mettre la balise <pc> à la place de la balise <w>, ou conserver d’une manière ou d’une autre la transcription originale ?
    • Lorsqu'il n'y a pas d'ambiguïté, on se contente de corriger
  • Peut-on mettre deux mots distincts dans l’attribut @reg d’un mot unique (déjà observé dans le corpus lorsque les deux mots sont séparés par une apostrophe) ? Quid du lemme et de la POS dans ce cas-là ? Exemple : reg=“it is” pour le mot “its”, page 259 du pdf EEBO de De cive, ligne 7 de la section VII
    • lorsqu’on a affaire à un ‘s du verbe être (du type “it’s”), il est écrit dans la transcription <w join=”right”>it</w><w>’s</w>, donc ici on écrira <w join=“right”><choice><orig>its</orig><reg>it</reg></choice></w><w><choice><orig/><reg>is</reg></choice></w>
  • quand plusieurs mots latins se succèdent, ils sont encapsulés dans la balise <foreign>, mais d’autres sont simplement signalés par une POS “fla” : faut-il faire la même chose pour le grec ? ou au contraire encapsuler tout mot étranger dans une balise <foreign> ?
  • certains mots anglais (et reconnus comme tels au vu des lemmes/POS) sont encapsulés dans une balise <foreign> avec les mots étrangers qui les suivent
  • quel lemme pour les chiffres romains (pour l’instant, le lemme est le chiffre romain passé en minuscules) ?
  • problème de lemmatisation des mots en majuscules : soit le lemme est tout en majuscules, soit tout en minuscules (même pour les noms propres reconnus comme tels)
  • certains mots en latin ne sont signalés par aucune balise <foreign> ou <seg> (et ne peuvent donc pas être repérés en recherchant xml:lang=”lat”)
  • certains nombres qui se suivent sont comptés comme un seul mot avec un point au milieu
    • MC : script de “split” réalisé
  • parfois, une parenthèse est marquée unit=”sentence” ; parfois deux unit=”sentence” se suivent directement (du type <pc unit=“sentence” xml:id=“A43998-004-b-0121”>.</pc><pc unit=“sentence” xml:id=“A43998-004-b-0130”/>)

Discussion sur le protocole EEBO-TCP

  • Quel que soit le nombre de mots grecs réellement présents dans le texte, la transcription en encode toujours cinq
    • On rétablit le texte grec sans signaler cette erreur de transcription comme “originelle”
  • au moins un mot contient un 0 à la place d’un O (“0bject”)

Discussion protocole TXM

  • Import TXM avec les dernières versions des transcriptions : il faudrait modifier les feuilles xsl pour que le contenu des balises <orig> ne se retrouve pas dans le texte affiché mais seulement le contenu des balises <reg>
  • lorsqu’on crée un index avec la requête [word=”non-Roman”] et qu’on clique sur une occurrence, TXM affiche la page qui succède directement à celle qui contient l’occurrence ; ça ne semble pas être le cas avec un token “normal”

* Documentation

public/dth/transcriptions-etiquetage.txt · Dernière modification: 2020/10/15 13:25 par michel-capot@live.fr