Le fac-similé est disponible : https://fr.wikisource.org/wiki/Fichier:Verne_-_Le_Tour_du_monde_en_quatre-vingts_jours.djvu.
3 éditions numériques sont disponibles sous licence ouverte.
https://fr.wikisource.org/wiki/Le_Tour_du_monde_en_quatre-vingts_jours/Texte_entier → transformé en XML-TEI avec OxGarage.
https://github.com/oeuvres/verne/blob/gh-pages/verne_tour-du-monde.xml → nativement TEI.
http://tln.li.univ-tours.fr/Tln_Corpus80jours.html → augmenté de <s> et <name> (entités nommées) calculés avec Unitex.
Les trois versions ont été déposées dans smb://ensldfs.ens-lyon.fr/services/Laboratoires/labo_ana_corpus/Projets/Textométrie/SpUV/JulesVerne/TDM80J. Un fichier import est déjà préparé pour XML/w+CSV.
J'ai comparé l'usage des balises TEI des 3 fichiers avec la macro XMLStatistics :
TDM 80 jours TLN/LI Wikisource Github TOTAL anchor 225 225 author 1 1 2 authority 7 7 availability 1 1 2 bibl 1 1 body 1 1 1 3 cell 27 27 creation 1 1 2 date 4 1 5 div 37 42 37 116 edition 1 1 editionStmt 1 1 2 figure 4 4 fileDesc 1 1 2 filedesc 1 1 graphic 56 56 head 41 37 78 hi 242 203 445 item 70 70 language 1 1 2 langUsage 1 1 2 lb 76 37 113 list 4 4 name 3345 1 3346 note 1 1 2 p 4390 2107 1996 8493 profileDesc 1 1 2 publicationStmt 1 1 1 3 publisher 1 1 ref 51 1 52 resp 3 1 4 respStmt 3 1 4 row 9 9 s 4390 4390 sourceDesc 1 1 2 table 1 1 TEI 1 1 1 3 teiHeader 1 1 1 3 text 1 1 1 3 title 1 1 2 titleStmt 1 1 1 3 w 358 358 TOTAL 25098 5938 4666 35702
Chaque version contient des balises ou tokens intéressants qui lui sont propres. Il serait intéressant de construire une version qui contient tout ce qui est utile, puis d'y ajouter des <pb/> pour pouvoir produire une édition synoptique avec fac-similé.
Pour l'instant je réfléchis à une stratégie d'intégration de certaines balises d'au moins deux fichiers sources : pour récupérer au moins les <div>+<head>, <p>, <name>+<s>, <graphic>, etc.
Je vois deux workflow possibles :
Tant que ce chantier n'a pas abouti, on peut déjà utiliser une des trois versions au choix comme corpus exemple et comme corpus de test (recettes). À défaut, je recommande d'utiliser la version Github.
La version Wikisource contient plus de tokens. J'ai commencé à y encadrer les contenus annexes (hors texte de l'oeuvre lui-même par rapport aux autres versions) dans des sections front et back.
Wikisource propose plusieurs oeuvres intéressantes : http://fr.wikisource.org/wiki/Auteur:Jules_Verne
Par exemple “Vingt mille lieues sous les mers” se trouve ici : http://fr.wikisource.org/wiki/Vingt_mille_lieues_sous_les_mers
Plusieurs formats sont disponibles :
tidy -asxhtml -numeric -utf8 -o vingt_mille.xhtml index.html