Outils pour utilisateurs

Outils du site


public:dth:defauts-transcriptions-connus

Lacunes de caractères ou de mots, autres systèmes d’écriture

Recensement EarlyPrint

Des informations générales sont indiquées dans le site EarlyPrint dans les pages de description des oeuvres de Hobbes.

Par exemple, pour le Leviathan :

  • rechercher l'entrée Leviathan, or The matter, forme, & power of a common-wealth ecclesiasticall and civill· By Thomas Hobbes of Malmesbury.. By Hobbes, Thomas, .1651.
  • cliquer sur le bouton [More]
  • on lit :
Pages: 412
Words: 253644

Genre:

Page images available: no

This text is an enriched version of the TCP digital transcription A43998 of text R17253 in the English Short Title Catalog (Wing H2246). Textual changes and metadata enrichments aim at making the text more computationally tractable, easier to read, and suitable for network-based collaborative curation by amateur and professional end users from many walks of life. The text has been tokenized and linguistically annotated with MorphAdorner. The annotation includes standard spellings that support the display of a text in a standardized format that preserves archaic forms ('loveth', 'seekest'). Textual changes aim at restoring the text the author or stationer meant to publish.

Many incompletely or incorrectly transcribed words were corrected by Martin Mueller.
This text has not been fully proofread.

Remaining known defects include:

    229 missing or incompletely transcribed tokens.


The rate of 9.04 defects per 10,000 words puts this text in the B category of texts with fewer than 10 defects per 10,000 words.

Glose : 229 mots et ponctuation n'ont pas été transcrits.

Encodage dans les transcriptions

Les mots et lettres problématiques ont été recodés par MorphAdorner avec les codes indicatifs suivants dans les transcriptions :

  • The Unicode black circle ● (Unicode u25CF) replaces missing letters.
  • The sequence of Unicode left-angle bracket, lozenge, right-angle bracket〈◊〉 (\u3008\u25CA\u3009) replaces each missing word.
  • The Unicode sequence left-angle bracket, horizontal ellipsis, right-angle bracket〈?〉(\u3008\u2026\u3009) replaces a span of missing text.
  • Simple foreign gaps are replaced by <seg xml:lang=“unknown”> 〈◊〉 〈◊〉</seg> .
  • Foreign gap lines (enclosed by <l> tags) are replaced by a sequence of seven〈◊〉missing word markers enclosed in an <l xml:lang=“unknown”> tag.

Cf section Gaps de la documentation de MorphAdorner.

Tâches à réaliser

  • Régularisations (lettres manquantes)
    • Il faut remplacer les codes par un encodage XML-TEI :
      • des formes et lettres d'origine (non régularisées) (<orig>)
      • des formes et lettres régularisées (<reg>)
      • des lemmes correspondants
      • des pos correspondants (voir les pos des formes équivalentes du corpus et la documentation de MorphAdorner)
  • Ajouts (mots et séquences de mots non transcrits, dont les mots étrangers)
    • encoder les insertions en XML-TEI
    • mots étrangers
      • encadrer par <foreign lang=“grc”> (pour le grec)
      • mettre l'attribut @pos à 'foreign'
    • MC : comment gère-t-on l'attribut @xml:id d'un mot rajouté, puisqu'il doit s'intercaler entre deux mots dont les @xml:id se suivent ?
    • Quand les corrections d'un ouvrage sont terminées, on ajoute une indication d'intervention dans l'entête TEI.
public/dth/defauts-transcriptions-connus.txt · Dernière modification: 2020/09/10 14:03 par michel-capot@live.fr