Le projet DTH a pour but de constituer et de diffuser un corpus numérique ouvert des « écrits théologiques » du philosophe anglais Thomas Hobbes (1588-1679) de manière à pouvoir l’exploiter scientifiquement grâce aux outils de textométrie.
Le corpus est composé des sources EEBO TCP suivantes (d'après la table EEBO-TCP) :
name | tcp | eebo | vid | stc | status | author | date | title | terms | pages |
elements | A43995 | 9851606 | 44255 | Wing H2244; ESTC R27431 | Free | Hobbes, Thomas, 1588-1679. | 1684 | Humane nature, or, The fundamental elements of policy being a discovery of the faculties, acts, and passions of the soul of man from their original causes, according to such philosophical principles as are not commonly known or asserted / by Tho. Hobbs. | Soul.; Free will and determinism. | 106 |
elements+ | A43978 | 31355044 | 110315 | Wing H2221; ESTC R41339 | Free | Hobbes, Thomas, 1588-1679. | 1652 | De corpore politico, or, The elements of law, moral and politick with discourses upon severall heads, as of [brace] the law of nature, oathes and covenants, several kinds of government : with the changes and revolutions of them / by Tho. Hobbs of Malmsbury. | Natural law.; Political science – Early works to 1800.; Oaths. | 190 |
decive | A86417 | 99862700 | 114870 | Wing H2253; Thomason E1262_1; ESTC R202404 | Free | Hobbes, Thomas, 1588-1679.; Vaughan, Robert, engraver. | 1651 | Philosophicall rudiments concerning government and society. Or, A dissertation concerning man in his severall habitudes and respects, as the member of a society, first secular, and then sacred. Containing the elements of civill politie in the agreement which it hath both with naturall and divine lawes. In which is demonstrated, both what the origine of justice is, and wherein the essence of Christian religion doth consist. Together with the nature, limits, and qualifications both of regiment and subjection. / By Tho: Hobbes.; De cive. English | Political science – Philosophy – Early works to 1800.; Natural law – Early works to 1800.; Authority – Early works to 1800. | 406 |
leviathan | A43998 | 12165813 | 55310 | Wing H2246; ESTC R17253 | Free | Hobbes, Thomas, 1588-1679. | 1651 | Leviathan, or, The matter, forme, and power of a common wealth, ecclesiasticall and civil by Thomas Hobbes …; Leviathan | Political science – Early works to 1800.; State, The. | 412 |
Deux sources de transcriptions sont disponibles :
This text is an enriched version of the TCP digital transcription A86417 of text xxx in the <ref target="http;//estc.bl.uk">English Short Title Catalog</ref> (Thomason E1262_1). Textual changes and metadata enrichments aim at making the text more computationally tractable, easier to read, and suitable for network-based collaborative curation by amateur and professional end users from many walks of life. The text has been tokenized and linguistically annotated with <ref target="http://morphadorner.northwestern.edu/morphadorner/">MorphAdorner</ref>. The annotation includes standard spellings that support the display of a text in a standardized format that preserves archaic forms ('loveth', 'seekest'). Textual changes aim at restoring the text the author or stationer meant to publish.
Les images de facsimilés utilisées pour les transcriptions EEBO-TCP ne sont pas accessibles gratuitement. On peut y accéder avec l'abonnement de l'ENS de Lyon sur le site de diffusion <http://eebo.chadwyck.com>.
Dans ce site, voici par exemple des URLs d'accès direct à (accès réservé) :
Récupération et préparation (sur Ubuntu 16.04) des images de fac-similé pour un usage privé local
pdfimages -p -png 01_Humane_nature_H2244.pdf 44255
mkdir 44255
bash convert.sh 44255 53
code du script convert.sh :
#!/bin/bash dir=$1 max=$2 n=1 while [ $n -le $max ] do i=`printf "%s-%03d-*.png" $dir $n` echo $n convert $i $dir/$n.jpg n=$[$n + 1] done
Les images sont disponibles dans les fichiers PDF du drive DTH.
Le corpus a été développé en plusieurs phases successives produisant différentes versions (décrites dans une section dédiée ci-dessous) :
<div type="errata" = hors texte à éditer
Les versions successives des sources du corpus sont hébergées dans sharedocs : https://sharedocs.huma-num.fr/#/634/5640/Partage%20de%20Sources%20Textuelles%20(PST)/Hobbes/Corpus%20Complet/src (accès restreint)
Objectifs de la version 4 :
Remarques sur la v4 :
Objectifs de la version 5 :
Remarques sur la v5.0 :
Problèmes issus de requêtes spécifiques :
Bugs :
Propriété lemme :
1) Computing Specificites on Political Works and property lemma
Error while computing specificities: org.txm.stat.engine.r.RException: ** R error: "Error in lexicaltable[types, , drop = FALSE] : subscript out of bounds
"
while evaluating: SpecifResult2<-specificities(LexicalTable31, Vector34, NULL)
2) Computing Specificities on subcorpus Leviathan with corpus HOBBES5. Properties: lemma
** R error: "Error in lexiconsToLexicalTable(lexicon, sublexicon) :
type cannot be more frequent in the sublexicon than in the lexicon
"
while evaluating: SpecifResult1<-specificities.lexicon.new(Lexicon1, Lexicon2)
Error while computing specificities: java.lang.NullPointerException
java.lang.NullPointerException
Propriété word :
1) Computing Specificites on Political Works and property word
Error while computing specificities: org.txm.stat.engine.r.RException: ** R error: "Error in lexicaltable[types, , drop = FALSE] : subscript out of bounds
"
while evaluating: SpecifResult3<-specificities(LexicalTable35, Vector38, NULL)
2) Computing Specificities on subcorpus Leviathan with corpus HOBBES5. Properties: lemma
** R error: "Error in lexiconsToLexicalTable(lexicon, sublexicon) :
type cannot be more frequent in the sublexicon than in the lexicon
"
while evaluating: SpecifResult2<-specificities.lexicon.new(Lexicon3, Lexicon4)
Error while computing specificities: java.lang.NullPointerException
java.lang.NullPointerException
- <div type="encomium"> -> <div type="encomium" txmPlane="hors texte à éditer"> - <div type="to_the_reader"> -> <div type="to_the_reader" txmPlane="hors texte à éditer">
ne fonctionne pas car l'option d'import de plan textuel “hors texte à éditer” ne fonctionne pas actuellement pour des textes tokenisés par un outil externe
<closer> <salute>My most honoured Lord,</salute> <signed>Your most humble, and most obliged Servant, THO. HOBBS.</signed> <dateline> <date> <hi>May</hi> 9. 1640.</date> </dateline> </closer> </div> <div type="encomium" txmPlane="hors texte à éditer"> <pb facs="tcp:44255:5"/> <pb facs="tcp:44255:5"/> <head>IN Libellum praestantissimi THO. HOBBII Veri verè Philosophi, de Naturâ Hominis.</head>
<p>By <hi>Tho. Hobbs</hi> of <hi>Malmsbury.</hi> </p> <p>LONDON, Printed by <hi>T. R.</hi> for <hi>J. Ridley,</hi> and are to be sold at the Castle in <hi>Fleetstreet,</hi> by Ram-Alley. 1652.</p> </div> <div type="to_the_reader" txmPlane="hors texte à éditer"> <pb facs="tcp:110315:2"/> <pb facs="tcp:110315:2"/> <head>To The Reader.</head> <opener> <salute>Reader,</salute>
<label>Chap. 47.</label> <item> <emph>Of the Benefit proceeding from such Darknesse; and to whom it accreweth.</emph> Page. 381</item> <label/> <item> <emph>A Review and Conclusion.</emph> Page. 389</item> </list> </div0> </div> <div type="errata" txmPlane="hors texte à éditer"> <head>Errata.</head> <p>PAge 48. In the Margin, for <emph>love Praise,</emph> r<gap reason="illegible" resp="#APEX" extent="1+ letters"> <desc>•…</desc>
./adorneme ~/Corpus/src/Hobbes/hobbes-v7/adorned ~/Corpus/src/Hobbes/hobbes-v7/*.xml
Paramètres
Traitements intermédiaires en XSL
Stylage des éditions par CSS
Les sections précédentes sont sensées permettre de reconstruire le corpus v7 soi-même entièrement à partir des fichiers EEBO-TCP de Github.
Les sources finalisées et le corpus binaire sont disponibles dans Sharedocs :
Remarque : la première version du corpus v7 reprend tous les développements des versions précédentes + la possibilité d'appliquer soi-même MorphAdorner (2.0). Elle ne tient pas forcément compte des retours notés dans cette page sur certaines version précédentes (il n'y a pas encore de marginalia dans les éditions, etc.).
les sources du projet EarlyPrint Library sont une version régularisée et affinée (grâce au comblement des lacunes) des sources EEBO-TCP, annotée par MorphAdorner 3.0. Les textes lemmatisés par NWU semblent identiques à ces sources (après import XTZ dans TXM), à l’exception de : 1) l’identifiant ; 2) certains détails de l’entête TEI ; 3) l’extraction des notes en marge à la fin du De cive et du Léviathan (introduite par <div type=“supplied_by_editor”>).
- <div type="encomium"> -> <div type="encomium" txmPlane="hors texte à éditer"> - <div type="to_the_reader"> -> <div type="to_the_reader" txmPlane="hors texte à éditer">
Paramètres
Traitements intermédiaires en XSL
Stylage des éditions par CSS
Procédure d'import
L'idée est de séparer les images des sources XML à cause de leur poids pour simplifier la logistique d'import.
La procédure d'import est donc la suivante :
[FB 15/03] :
[SLH 18/04] :
Intégration des images de fac-similés de sources diverses en ligne :
On utilise la librairie Java Kumo pour produire le wordcloud (javadoc).
La première version du word cloud a été réalisée avec la classe FrequencyAnalyzer de Kumo version 1.8 à partir :
La deuxième est réalisée avec la classe FrequencyFileLoader à partir d'un vecteur de fréquences de lemmes du leviathan du corpus HOBBES 8.1 LI construit à partir :
2141: man 1100: God 979: law 741: power 606: sovereign 570: thing 555: word 502: commonwealth 475: time 449: place 418: subject 404: nature 355: king 352: right 330: civil 328: people 327: reason ...
Pour la première version, le choix était de marquer la différence de nature entre les mots et l'image d'origine - en particulier les personnages dans le corps.
Le word cloud utilisait la palette exemple de Kumo (bleus et blanc) : 0x4055F1, 0x408DF1, 0x40AAF1, 0x40C5F1, 0x40D3F1, 0xFFFFFF
Pour la deuxième version, le choix est de ne pas marquer cette différence - c'est à dire d'assimiler plus les mots aux personnages d'origine.
La palette est composée d'un assortiment de beiges issus de l'image d'origine : 0xd2c8a5, 0x6d6756, 0x928b73, 0x867f69, 0xb1a98d, 0x464337, 0x5e5a4c, 0x9f977e
On peut aussi choisir d'autres palettes pré-existantes :
Objectifs (première version non prototype) :
Sources :
Spécifications :
Réalisations :
* Documentation
Objectifs de la version 1 :
Objectifs de la version 2 :
Objectifs de la version 3 :
Objectifs de la version 1 :
Objectifs de la version 1 :
Ressources, plus ou moins pertinentes, découvertes pendant les travaux du projet.