Projets de corpus exemples

A. Tour du monde en 80 jours de Jules Verne

Sources

Le fac-similé est disponible : https://fr.wikisource.org/wiki/Fichier:Verne_-_Le_Tour_du_monde_en_quatre-vingts_jours.djvu.

3 éditions numériques sont disponibles sous licence ouverte.

Wikisource

Github

TLN/LI Tours

http://tln.li.univ-tours.fr/Tln_Corpus80jours.html → augmenté de <s> et <name> (entités nommées) calculés avec Unitex.

État courant

Les trois versions ont été déposées dans smb://ensldfs.ens-lyon.fr/services/Laboratoires/labo_ana_corpus/Projets/Textométrie/SpUV/JulesVerne/TDM80J. Un fichier import est déjà préparé pour XML/w+CSV.

Comparaison

J'ai comparé l'usage des balises TEI des 3 fichiers avec la macro XMLStatistics :

	TDM 80 jours			
	TLN/LI	Wikisource	Github	TOTAL
anchor	 	225	 	225
author	1	 	1	2
authority	7	 	 	7
availability	1	1	 	2
bibl	 	 	1	1
body	1	1	1	3
cell	 	27	 	27
creation	 	1	1	2
date	4	 	1	5
div	37	42	37	116
edition	 	 	1	1
editionStmt	 	1	1	2
figure	 	4	 	4
fileDesc	 	1	1	2
filedesc	1	 	 	1
graphic	 	56	 	56
head	 	41	37	78
hi	 	242	203	445
item	 	70	 	70
language	 	1	1	2
langUsage	 	1	1	2
lb	 	76	37	113
list	 	4	 	4
name	3345	 	1	3346
note	1	 	1	2
p	4390	2107	1996	8493
profileDesc	 	1	1	2
publicationStmt	1	1	1	3
publisher	1	 	 	1
ref	 	51	1	52
resp	3	 	1	4
respStmt	3	 	1	4
row	 	9	 	9
s	4390	 	 	4390
sourceDesc	 	1	1	2
table	 	1	 	1
TEI	1	1	1	3
teiHeader	1	1	1	3
text	1	1	1	3
title	1	 	1	2
titleStmt	1	1	1	3
w	358	 	 	358
TOTAL	25098	5938	4666	35702

Synthèse

Chaque version contient des balises ou tokens intéressants qui lui sont propres. Il serait intéressant de construire une version qui contient tout ce qui est utile, puis d'y ajouter des <pb/> pour pouvoir produire une édition synoptique avec fac-similé.

Pour l'instant je réfléchis à une stratégie d'intégration de certaines balises d'au moins deux fichiers sources : pour récupérer au moins les <div>+<head>, <p>, <name>+<s>, <graphic>, etc.

Je vois deux workflow possibles :

  • xmldiff → script del+ins+change (=xml-patch) basé sur des balises XML → généralisation pour intégration de certaines balises dans une autre version
  • tokenization TXM + token-diff → script del+ins+change au niveau token → généralisation du niveau des tokens pour projeter ensuite certaines structures à récupérer

Tant que ce chantier n'a pas abouti, on peut déjà utiliser une des trois versions au choix comme corpus exemple et comme corpus de test (recettes). À défaut, je recommande d'utiliser la version Github.

La version Wikisource contient plus de tokens. J'ai commencé à y encadrer les contenus annexes (hors texte de l'oeuvre lui-même par rapport aux autres versions) dans des sections front et back.

B. Construction d'un corpus des oeuvres de Jules Verne

Wikisource propose plusieurs oeuvres intéressantes : http://fr.wikisource.org/wiki/Auteur:Jules_Verne

Par exemple “Vingt mille lieues sous les mers” se trouve ici : http://fr.wikisource.org/wiki/Vingt_mille_lieues_sous_les_mers

Plusieurs formats sont disponibles :

Format EPUB

Outils

Outils EPUB

Outils HTML

  • Tidy sait convertir du HTML en XHTML:

tidy -asxhtml -numeric -utf8 -o vingt_mille.xhtml index.html

Outils XHTML

Outils DOCX / ODT

Outils TEI

public/projets_corpus.txt · Dernière modification: 2016/06/29 21:05 par slh@ens-lyon.fr