Digital Theological Hobbes

Le projet DTH a pour but de constituer et de diffuser un corpus numérique ouvert des « écrits théologiques » du philosophe anglais Thomas Hobbes (1588-1679) de manière à pouvoir l’exploiter scientifiquement grâce aux outils de textométrie.

Corpus Hobbes

Le corpus est composé des sources EEBO TCP suivantes (d'après la table EEBO-TCP) :

nametcpeebovidstcstatusauthordatetitletermspages
elementsA43995985160644255Wing H2244; ESTC R27431FreeHobbes, Thomas, 1588-1679.1684Humane nature, or, The fundamental elements of policy being a discovery of the faculties, acts, and passions of the soul of man from their original causes, according to such philosophical principles as are not commonly known or asserted / by Tho. Hobbs.Soul.; Free will and determinism.106
elements+A4397831355044110315Wing H2221; ESTC R41339FreeHobbes, Thomas, 1588-1679.1652De corpore politico, or, The elements of law, moral and politick with discourses upon severall heads, as of [brace] the law of nature, oathes and covenants, several kinds of government : with the changes and revolutions of them / by Tho. Hobbs of Malmsbury.Natural law.; Political science – Early works to 1800.; Oaths.190
deciveA8641799862700114870Wing H2253; Thomason E1262_1; ESTC R202404FreeHobbes, Thomas, 1588-1679.; Vaughan, Robert, engraver.1651Philosophicall rudiments concerning government and society. Or, A dissertation concerning man in his severall habitudes and respects, as the member of a society, first secular, and then sacred. Containing the elements of civill politie in the agreement which it hath both with naturall and divine lawes. In which is demonstrated, both what the origine of justice is, and wherein the essence of Christian religion doth consist. Together with the nature, limits, and qualifications both of regiment and subjection. / By Tho: Hobbes.; De cive. EnglishPolitical science – Philosophy – Early works to 1800.; Natural law – Early works to 1800.; Authority – Early works to 1800.406
leviathanA439981216581355310Wing H2246; ESTC R17253FreeHobbes, Thomas, 1588-1679.1651Leviathan, or, The matter, forme, and power of a common wealth, ecclesiasticall and civil by Thomas Hobbes …; LeviathanPolitical science – Early works to 1800.; State, The.412

Sources disponibles

Transcriptions

Deux sources de transcriptions sont disponibles :

This text is an enriched version of the TCP digital transcription A86417 of text xxx in the <ref target=“http;estc.bl.uk”>English Short Title Catalog</ref> (Thomason E1262_1). Textual changes and metadata enrichments aim at making the text more computationally tractable, easier to read, and suitable for network-based collaborative curation by amateur and professional end users from many walks of life. The text has been tokenized and linguistically annotated with <ref target=“http:morphadorner.northwestern.edu/morphadorner/”>MorphAdorner</ref>. The annotation includes standard spellings that support the display of a text in a standardized format that preserves archaic forms ('loveth', 'seekest'). Textual changes aim at restoring the text the author or stationer meant to publish.

Images de facsimilés

Les images de facsimilés utilisées pour les transcriptions EEBO-TCP ne sont pas accessibles gratuitement. On peut y accéder avec l'abonnement de l'ENS de Lyon sur le site de diffusion <http://eebo.chadwyck.com>.

Dans ce site, voici par exemple des URLs d'accès direct à (accès réservé) :

Récupération et préparation (sur Ubuntu 16.04) des images de fac-similé pour un usage privé local

  1. récupération des PDFs images sur le site
  2. pour chacun des 4 textes, exemple Humane_nature (code 'vid' - utilisé par l'encodage XML-TEI - 44255) :
    1. extraction des images de pages :
      pdfimages -p -png 01_Humane_nature_H2244.pdf 44255
    2. création du répertoire des images finales :
      mkdir 44255
    3. conversion des formats d'images PNGJPG :
      bash convert.sh 44255 53
      code du script convert.sh :
      #!/bin/bash
       
      dir=$1
      max=$2
      n=1
      while [ $n -le $max ]
      do
      i=`printf "%s-%03d-*.png" $dir $n`
      echo $n
      convert $i $dir/$n.jpg
      n=$[$n + 1]
      done
  3. les répertoires d'images sont finalement regroupés dans un seul répertoire 'images'
  4. qui est à son tour compressé dans un fichier archive 'images.zip', disponible pour le déploiement des images de fac-similés APRÈS import.

Historique du développement du projet

Le corpus a été développé en plusieurs phases successives produisant différentes versions (décrites dans une section dédiée ci-dessous) :

  • version 1-2 :
    • récupéré les textes depuis Github EEBO-TCP
    • 68 sauts de page <pb> de leviathan sont équipés d'un lien @facs vers des images de fac-similé en ligne
    • xsl conversion des lettrines
    • xsl conversion div/div → div1/div2
    • xsl réduction césures, eg : Ima<g ref=“char:EOLhyphen”/>gination → Imagination
    • notes de Hobbes intégrées au corps du texte
    • lemmatisation TreeTagger EN contemporain
  • version 3 :
  • version 4-5 :
  • version 6 :
    • +xsl de numérotation avec attribut @txmN
    • rendu des hi en italiques
  • version 7
    • sources EEBO
      • récupérer les pb@facs de leviathan
      • concaténation de A43995 + A43978 :
        • (A43995 = title_page + [dedication] + [encomium = latin - hors texte à éditer] + chapitre 1 à 13 de Humane nature) + (A43978 = title_page + [to_the_reader = hors texte à éditer] + reste)
        • A43998 (leviathan) :
          • <div type=“errata” = hors texte à éditer
    • mots lemmatisés par MorphAdorner v2.0 par NWU

Les versions successives des sources du corpus sont hébergées dans sharedocs : https://sharedocs.huma-num.fr/#/634/5640/Partage%20de%20Sources%20Textuelles%20(PST)/Hobbes/Corpus%20Complet/src (accès restreint)

Hobbes version 4

Objectifs de la version 4 :

  • intégrer la deuxième partie des Elements (texte EEBO-TCP supplémentaire) dans la première

Remarques sur la v4 :

  • finalement les Elements sont composés du frontispice de la deuxième partie suivi de la première partie, suivi de la deuxième partie → erreur

Hobbes version 5

Objectifs de la version 5 :

  • corriger l'ordre et le frontispice utilisé dans les Elements
  • utiliser les textes lemmatisés par NWU (MorphAdoner v3.0 - non publique)
  • afficher les diagrammes de spécificité et les partitions dans l'ordre chronologique des textes. Solution temporaire : renommer les identifiants de textes avec un préfixe alphanumérique

Remarques sur la v5.0 :

  • OK ordre des textes dans Elements : les Elements sont maintenant composés du frontispice (contenu de l'élément <front>) de la première partie suivi de la première partie, suivi de la deuxième partie
  • OK la ponctuation a disparu : (les ponctuations sont devenues des mots et j'ai créé une nouvelle catégorie 'p' qui n'existe pas dans NUPOS - voir la nouvelle XSL 'convert-pc-to-w.xsl')
  • références :
    • OK les identifiants de texte dans les références ne sont pas corrects : (corrigé text@id)
    • OK certaines références ont perdu leur n° de page, paragraphe ou chapitre : ceci est du au fait que les éléments ne sont pas numérotés systématiquement avec @n (il n'y a donc des @n que de temps en temps) : (forcé la numérotation de tous les éléments, pour qu'elle soit disponible pour la construction des ref et reffull)
    • OK certains retour au texte ne fonctionnent plus : (forcé tous les IDs de W et PC avec la macro ForceWordIDs et converti les PC en W)
  • OK les identifiants de texte dans les éditions ne sont pas corrects (corrigé text@id)
  • il faudrait passer les passages en latin du frontispice des Éléments dans le plan 'hors texte à éditer'
  • il faut comprendre pourquoi une partie du texte (compris dans la balise <hi>) n’est plus en italique et corriger l’affichage de l’édition
  • il faudrait passer les notes de Hobbes dans un nouveau plan 'notes à indexer'
  • il faut intégrer les marginalia de Hobbes dans l’édition (mais, contrairement à la v4.0, en marge et pas dans le texte) et dans les calculs statistiques
  • il faut corriger la numérotation et, éventuellement, la structuration des parties, des chapitres et des paragraphes des textes (y compris le Léviathan) de manière à afficher correctement les références et à créer des sub-corpus et des partitions plus fins. Il faudra modifier ref et fullref en conséquence
  • les liens vers les images de facsimilés du Léviathan sont absents (il faut les recoder)

Problèmes issus de requêtes spécifiques :

  • une comparaison avec l’index hiérarchique des lemmes de substantifs du corpus Hobbes 4 a révélé la présence d’erreurs même dans la lemmatisation du corpus Hobbes 5 (voir la première image). Des formes graphiques avec des majuscules du lemme « God » n’ont pas été reconnues comme telles sans la neutralisation de la casse (voir la deuxième image)

lemme_god_h3_et_5.jpg

formes_graphiques_du_lemme_god.jpg

  • quand on affiche les dimensions de la partition du Léviathan par chapitre, les chapitres n’apparaissent pas dans l’ordre croissant

07_dimension_des_chapitres_du_leviathan.jpg

Bugs :

  • quand on crée une partition (voir la première image) ou un sub-corpus (par exemple, du Léviathan), TXM génère plus fichiers que prévu (voir la deuxième et la troisième image), même si on redémarre TXM avant de lancer la commande. On a l’impression que TXM se rappelle des requêtes précédentes et propose des résultats mélangés.

partition_political_works.jpg resultats_de_la_partition.jpg resultat_du_sub-corpus.jpg

  • quand on lance le calcul de spécificité sur la partition Political Works ou sur le sub-corpus Leviathan, la console affiche les messages suivants :

Propriété lemme :

1) Computing Specificites on Political Works and property lemma Error while computing specificities: org.txm.stat.engine.r.RException: ** R error: "Error in lexicaltable[types, , drop = FALSE] : subscript out of bounds " while evaluating: SpecifResult2<-specificities(LexicalTable31, Vector34, NULL)

2) Computing Specificities on subcorpus Leviathan with corpus HOBBES5. Properties: lemma ** R error: "Error in lexiconsToLexicalTable(lexicon, sublexicon) : type cannot be more frequent in the sublexicon than in the lexicon " while evaluating: SpecifResult1<-specificities.lexicon.new(Lexicon1, Lexicon2) Error while computing specificities: java.lang.NullPointerException java.lang.NullPointerException

Propriété word :

1) Computing Specificites on Political Works and property word Error while computing specificities: org.txm.stat.engine.r.RException: ** R error: "Error in lexicaltable[types, , drop = FALSE] : subscript out of bounds " while evaluating: SpecifResult3<-specificities(LexicalTable35, Vector38, NULL)

2) Computing Specificities on subcorpus Leviathan with corpus HOBBES5. Properties: lemma ** R error: "Error in lexiconsToLexicalTable(lexicon, sublexicon) : type cannot be more frequent in the sublexicon than in the lexicon " while evaluating: SpecifResult2<-specificities.lexicon.new(Lexicon3, Lexicon4) Error while computing specificities: java.lang.NullPointerException java.lang.NullPointerException

  • le calcul des cooccurrences sur le sub-corpus Leviathan ne marche pas. La console n’affiche pas de messages
  • la quatrième ligne de la concordance du lemme « God » de l’image ci-dessous renvoie à une page erronée de l’édition anglaise du De cive, à savoir à la page 43 (vide) au lieu de la page 42 (table de matières)

renvoi_errone_au_texte.jpg

Images de fac-simile

Hobbes version 7

Préparation & Import du corpus

1. Récupérer et préparer les sources
  1. imbriquer A43978 après A43995 et renommer en 01elements
    • préparation A43978 :
      • suppression de tout avant <front>
      • suppression des lignes </front><body>
      • suppression de </body> et tout ce qu'il y a après
  2. récupérer A86417 et renommer en 02decive
  3. récupérer la version de A43998 (leviathan) ayant déjà 68 <pb/> encodés (pour la production de l'édition fac-similée) et renommer en 03leviathan
    • gestion du hors texte à éditer
      • A) la stratégie consistant à passer certaines sections en hors texte manuellement en ajoutant @txmPlane=“hors texte à éditer” aux div correspondantes dans les sources
             - <div type="encomium"> -> <div type="encomium" txmPlane="hors texte à éditer">
             - <div type="to_the_reader"> -> <div type="to_the_reader" txmPlane="hors texte à éditer">
        
        ne fonctionne pas car l'option d'import de plan textuel “hors texte à éditer” ne fonctionne pas actuellement pour des textes tokenisés par un outil externe
      • B) Solution adoptée :
        • 1) retirer manuellement ces sections des sources
        • 2) lancer MorphAdorner
        • 3) ré-insérer manuellement ces sections non tokenisées dans les sources
      • réalisation de B)
        • décomposition de 01elements et 03leviathan
          • sections de 01elements :
            • A)

           <closer>
               <salute>My most honoured Lord,</salute>
               <signed>Your most humble, and most obliged Servant, THO. HOBBS.</signed>
               <dateline>
                  <date>
                     <hi>May</hi> 9. 1640.</date>
               </dateline>
            </closer>
         </div>
         <div type="encomium" txmPlane="hors texte à éditer">
            <pb facs="tcp:44255:5"/>
            <pb facs="tcp:44255:5"/>
            <head>IN Libellum praestantissimi THO. HOBBII Veri verè Philosophi, de Naturâ Hominis.</head>

  • B)

            <p>By <hi>Tho. Hobbs</hi> of <hi>Malmsbury.</hi>
            </p>
            <p>LONDON, Printed by <hi>T. R.</hi> for <hi>J. Ridley,</hi> and are to be sold at the Castle in <hi>Fleetstreet,</hi> by Ram-Alley. 1652.</p>
         </div>
         <div type="to_the_reader" txmPlane="hors texte à éditer">
            <pb facs="tcp:110315:2"/>
            <pb facs="tcp:110315:2"/>
            <head>To The Reader.</head>
            <opener>
               <salute>Reader,</salute>

  • section de 03leviathan :)

                 <label>Chap. 47.</label>
                  <item>
                     <emph>Of the Benefit proceeding from such Darknesse; and to whom it accreweth.</emph> Page. 381</item>
                  <label/>
                  <item>
                     <emph>A Review and Conclusion.</emph> Page. 389</item>
               </list>
            </div0>
         </div>
         <div type="errata" txmPlane="hors texte à éditer">
            <head>Errata.</head>
            <p>PAge 48. In the Margin, for <emph>love Praise,</emph> r<gap reason="illegible" resp="#APEX" extent="1+ letters">
                  <desc>•…</desc>

  1. supprimer tous les <g ref=“char:EOL(un)?hyphen”/> des sources avec la macro SearchReplaceInDirectory
  2. installer MorphAdorner (2.0)
  3. appliquer MorphAdorner :

	./adorneme ~/Corpus/src/Hobbes/hobbes-v7/adorned ~/Corpus/src/Hobbes/hobbes-v7/*.xml

  1. recomposer 01elements et 03leviathan avec les parties hors texte séparées avant la tokenisation
  2. re-calculer les bons @id de mots pour le retour au texte de TXM en appliquant la macro ForceWordIDs
  3. ajouter le fichier metadata.csv du corpus
2. Import XTZ

Paramètres

  • ne pas tokeniser
  • ne pas annoter (TreeTagger)
  • langue = 'en' (pour les tris)
  • hors-texte = teiHeader
  • produire les éditions fac-similés (pour Leviathan)

Traitements intermédiaires en XSL

  • xsl/2-front :
    • add-lettrine.xsl : réglage des lettrines, ajout du sélecteur .txmlettrinep:first-letter pour la gestion des lettrines
    • div0123456todiv.xsl : anonymisation des imbrications de structures textuelles pour faciliter leur manipulation
    • number-elements.xsl : pour que chaque structure dispose d'un numéro unique
    • convert-norm-c-pc.xsl : rendre l'encodage lexical compatible avec TXM
    • div2span.xsl : gestion du hors texte (non utilisé)
    • render-hi-in-italic.xsl : réglage du stylage des éditions
  • xsl/3-posttok :
    • split-number-with-dot.xsl : correction du bug de tokenisation de nombres de type '9.' de MorphAdorner
    • txm-posttok-addRef.xsl : création des références de concordances
    • txm-posttok-g-hyphen.xsl : réglage des mots découpés en fin de ligne

Stylage des éditions par CSS

  • css/HOBBES7.css

Sources & Binaires

Les sections précédentes sont sensées permettre de reconstruire le corpus v7 soi-même entièrement à partir des fichiers EEBO-TCP de Github.

Les sources finalisées et le corpus binaire sont disponibles dans Sharedocs :

  • Partage de Sources Textuelles (PST)/Hobbes/Corpus Complet/bin/hobbes-v7-src.zip (à importer directement avec l'import XTZ+CSV)
  • Partage de Sources Textuelles (PST)/Hobbes/Corpus Complet/bin/HOBBES7.txm (à charger, produit dans un TXM 0.7.9)

Retours

Remarque : la première version du corpus v7 reprend tous les développements des versions précédentes + la possibilité d'appliquer soi-même MorphAdorner (2.0). Elle ne tient pas forcément compte des retours notés dans cette page sur certaines version précédentes (il n'y a pas encore de marginalia dans les éditions, etc.).

Hobbes version 8

Raisons de la création de la version 8

les sources du projet EarlyPrint Library sont une version régularisée et affinée (grâce au comblement des lacunes) des sources EEBO-TCP, annotée par MorphAdorner 3.0. Les textes lemmatisés par NWU semblent identiques à ces sources (après import XTZ dans TXM), à l’exception de : 1) l’identifiant ; 2) certains détails de l’entête TEI ; 3) l’extraction des notes en marge à la fin du De cive et du Léviathan (introduite par <div type=“supplied_by_editor”>).

Objectifs de la version 8

  • intégrer les sources les plus affinées [version 5] avec les améliorations apportées aux versions 6 et 7 du corpus Hobbes ;
  • envisager l’affichage de deux séries différentes d’images de page de fac-similé en fonction du type d’utilisation :
    • 1) pour l’usage interne, on affiche les images du projet EEBO-TCP ;
    • 2) pour l’usage public, on affiche les images de fac-similé numérisées à la BIS et à la BnF dans le cadre du projet DTH.

Opérations 

1. Préparation des sources et du corpus
  • utiliser les textes lemmatisés par NWU (MorphAdoner v3.0 - non publique), dans l'archive Share/Hobbes/Corpus/hobbes-eebotcp-lemmatized-nwu.zip
    • les fichiers sont :
      • qbkv-A43998.xml
      • qbvt-A86417.xml
      • qchy-A43978.xml
      • qchz-A43995.xml
  • stratégie de gestion du hors texte à éditer
    • a) on encode manuellement dans les sources en ajoutant @txmPlane=“hors texte à éditer” aux div correspondantes dans les sources.
      Exemples :
           - <div type="encomium"> -> <div type="encomium" txmPlane="hors texte à éditer">
           - <div type="to_the_reader"> -> <div type="to_the_reader" txmPlane="hors texte à éditer">
      
    • b) une xsl détokenisera ces div pour que le plan 'hors texte à éditer' de l'import XTZ fonctionne
  • imbriquer A43978 après A43995 et renommer en 01elements
    • préparation A43995 :
      • suppression des pages blanches à la fin du chapitre 12 (deux lignes : 27324 et 27325) :
        • <pb facs=“tcp:44255:47” n=“78” xml:id=“qchz-047-a” type=“duplicate”/>
        • <pb facs=“tcp:44255:47” n=“79” xml:id=“qchz-047-b” type=“duplicate”/>)
      • suppression du <pb> après le titre du chapitre XIII (une ligne 28209) :
        • <pb facs=“tcp:44255:49” n=“83” xml:id=“qchz-049-b”/>
    • préparation A43978 :
      • suppression de <front> et de tout ce qu'il y a avant
      • suppression des lignes </front><body>
      • suppression de </body> et de tout ce qu'il y a après
    • concaténation de A43995 + A43978 et encodage du hors texte
      • A43995
        • title_page + [dedication]
        • [encomium = latin] → txmPlane="out-of-text-to-edit"
        • chapitre 1 à 13 + conclusion de Humane nature
          🞣
      • A43978
        • title_page
        • [to_the_reader] → txmPlane="out-of-text-to-edit"
        • reste
  • récupérer A86417 et renommer en 02decive et encodage du hors texte
    • <div type=“supplied_by_editor”> → txmPlane="out-of-text-to-edit"
  • récupérer A43998 et renommer en 03leviathan et encodage du hors texte
    • <div type=“errata”> → txmPlane="out-of-text-to-edit"
    • <div type=“supplied_by_editor”> → txmPlane="out-of-text-to-edit"
    • récupérer les pb@facs de leviathan
  • +xsl de numérotation avec attribut @txmN [version 6]
  • rendu des hi en italiques [version 6]
  • re-calculer les bons w@xml:id de mots pour le retour au texte de TXM en appliquant la macro ForceWordIDs
2. Import XTZ

Paramètres

  • ne pas tokeniser
  • ne pas annoter (TreeTagger)
  • langue = 'en' (pour les tris)
  • hors-texte = teiHeader
  • hors-text-à-éditer = span
  • produire les éditions fac-similés (pour Leviathan)
    • 5000 mots par page

Traitements intermédiaires en XSL

  • xsl/2-front :
    • add-lettrine.xsl : réglage des lettrines, ajout du sélecteur .txmlettrinep:first-letter pour la gestion des lettrines
    • convert-pc-to-w-remove-c.xsl : rendre l'encodage lexical compatible avec TXM
    • detokenize-out-of-text.xsl : désencoder les mots du hors texte à éditer (à cause du bug XTZ du hors texte à éditer)
    • div0123456todiv.xsl : anonymisation des imbrications de structures textuelles pour faciliter leur manipulation
    • number-elements.xsl : pour que chaque structure dispose d'un numéro unique
    • remove-attribute-text-id.xsl : pour que les références de concordances soient construites à partir des noms de fichiers et non à partir d'un xml:id de <text>
    • rename-div-to-span.xsl : encoder les éléments pour le hors texte à éditer
    • render-hi-in-italic.xsl : réglage du stylage des éditions
    • images de fac-similés :
      • convert-pb-facs-eebo-id-to-url.xsl pour la version avec images distantes (convertit les identifiants EEBO en URL vers les images en ligne)
      • convert-pb-facs-eebo-id-to-filename.xsl pour la version 'LI - local images' (convertit les identifiants EEBO en URL vers les images dans des fichiers locaux)
        • avec préparation en amont des images de fac-similés :
          • création du répertoire 'images' dans les sources contenant un répertoire par texte des images de fac-similé (préparé ci-dessus)
  • xsl/3-posttok :
    • split-number-with-dot.xsl : correction du bug de tokenisation de nombres de type '9.' de MorphAdorner (pas utilisé avec MorphAdorner 3.0)
    • txm-posttok-addRef.xsl : création des références de concordances
    • txm-posttok-g-hyphen.xsl : réglage des mots découpés en fin de ligne

Stylage des éditions par CSS

Procédure d'import

L'idée est de séparer les images des sources XML à cause de leur poids pour simplifier la logistique d'import.

La procédure d'import est donc la suivante :

  1. faire l'import XTZ des sources hobbes-v8-li-noimages-src.zip
  2. puis :
    • renommer le répertoire $TXMHOME/corpora/HOBBES8LI/facs/images en $TXMHOME/corpora/HOBBES8LI/facs/images-icons
    • soit dézipper images.zip directement dans $TXMHOME/corpora/HOBBES8LI/HTML/HOBBES8LI/facs
      • puis déplacer le répertoire $TXMHOME/corpora/HOBBES8LI/facs/images-icons/icons dans $TXMHOME/corpora/HOBBES8LI/HTML/HOBBES8LI/facs/images
    • soit dézipper images.zip quelquepart et faire un lien 'images' depuis TXM/corpora/HOBBES8LI vers le répertoire extrait (la possibilité de faire un lien permet d'avoir un seul répertoire d'images pointé par différentes versions du corpus, mais dépend du système d'exploitation)
      • puis déplacer le répertoire $TXMHOME/corpora/HOBBES8LI/facs/images-icons/icons dans le répertoire 'images' extrait

Retours Hobbes 8

[FB 15/03] :

  • J'ai vu qu'il y a aussi un problème de renvoi au texte depuis la concordance : parfois, quand je clique sur une ligne, la page qui s'affiche est erronée, et la page correcte ne souligne pas l'occurrence recherchée. Toutefois, après quelques essais, je pense pouvoir conclure qu'il s'agit d'un problème des différentes versions du corpus HOBBES8. En effet, dans HOBBES5 l'affichage était correct, même dans TXM 0.8.0b3.
    • [SH 18/03] : OK le problème venait du fait que je n'avais pas modifié les xml:id d'origine des <w> avec la macro ForceWordIDs, comme je l'avais fait pour Hobbes 5 et 7. J'ai ajouté la procédure aux opérations de préparation du corpus
  • J'ajoute une petite note pour Serge : j'ai vérifié qu'il y a au moins une autre différence entre HOBBES5 et HOBBES8 (les deux corpus utilisent les mêmes sources de la Northwestern University, donc ont la même lemmatisation). Quand je recherche un lemme dans HOBBES8, parfois après la ponctuation on voit ”__UNDEF__”. Si l'on fait un index des “lemmes” ”__UNDEF__” on voit qu'il y a 64308 occurrences. Dans HOBBES5 on ne trouve pas de tels “lemmes”.
    • [SH 18/03] : OK il y avait deux problèmes ne simplifiant pas le diagnostic :
      • a) je transformais les contenus de pc en w@lem au lieu de w@lemma. Du coup des mots avaient de @lemme et d'autres (les ponctuations) des @lem, et quand @lem ou @lemma n'était pas renseigné dans le mots → __UNDEF__ était affiché
      • b) une option d'import globale permet de choisir ce qu'on affiche pour les valeurs de propriétés de mots vides (chaines vide), __UNDEF__ par défaut, mais des fois autre chose peut être affiché car l'utilisateur peut choisir

Corpus Sanderson

Sanderson 1

Objectifs de la version 1 :

  • utiliser les textes EEBO-TCP

Sanderson 2

Objectifs de la version 2 :

  • utiliser les textes EEBO-TCP lemmatisés par :
    • NWU (MorphAdoner v3.0 - non publique)
    • ou bien lemmatisés par MorphAdoner v2.0 - publique

Sanderson 3

Objectifs de la version 3 :

  • ajouter le texte “ten lectures” (encore en page II de EEBO-TCP)

Corpus BibleENG

BibleENG

Objectifs de la version 1 :

  • utiliser les bibles early modern English EEBO-TCP : bible de Genêve, bible King James

Corpus BibleLAT

BibleLAT

Objectifs de la version 1 :

  • utiliser les bibles EEBO-TCP : bible Vulgate
public/projet_ihrim_dth.txt · Dernière modification: 2019/03/18 16:20 par slh@ens-lyon.fr