Ceci est une ancienne révision du document !


Projets de corpus exemples

A. Tour du monde en 80 jours de Jules Verne

Sources

Le fac-similé est disponible : https://fr.wikisource.org/wiki/Fichier:Verne_-_Le_Tour_du_monde_en_quatre-vingts_jours.djvu.

3 éditions numériques sont disponibles sous licence ouverte.

Wikisource

Github

TLN/LI Tours

http://tln.li.univ-tours.fr/Tln_Corpus80jours.html → augmenté de <s> et <name> (entités nommées) calculés avec Unitex.

État courant

Les trois versions ont été déposées dans smb://ensldfs.ens-lyon.fr/services/Laboratoires/labo_ana_corpus/Projets/Textométrie/SpUV/JulesVerne/TDM80J. Un fichier import est déjà préparé pour XML/w+CSV.

Comparaison

J'ai appliqué la macro XMLStatistics pour comparer l'usage des balises TEI des 3 fichiers :

	TDM 80 jours			
	TLN/LI	Wikisource	Github	TOTAL
anchor	 	225	 	225
author	1	 	1	2
authority	7	 	 	7
availability	1	1	 	2
bibl	 	 	1	1
body	1	1	1	3
cell	 	27	 	27
creation	 	1	1	2
date	4	 	1	5
div	37	42	37	116
edition	 	 	1	1
editionStmt	 	1	1	2
figure	 	4	 	4
fileDesc	 	1	1	2
filedesc	1	 	 	1
graphic	 	56	 	56
head	 	41	37	78
hi	 	242	203	445
item	 	70	 	70
language	 	1	1	2
langUsage	 	1	1	2
lb	 	76	37	113
list	 	4	 	4
name	3345	 	1	3346
note	1	 	1	2
p	4390	2107	1996	8493
profileDesc	 	1	1	2
publicationStmt	1	1	1	3
publisher	1	 	 	1
ref	 	51	1	52
resp	3	 	1	4
respStmt	3	 	1	4
row	 	9	 	9
s	4390	 	 	4390
sourceDesc	 	1	1	2
table	 	1	 	1
TEI	1	1	1	3
teiHeader	1	1	1	3
text	1	1	1	3
title	1	 	1	2
titleStmt	1	1	1	3
w	358	 	 	358
TOTAL	25098	5938	4666	35702

Synthèse

Pour l'instant je réfléchis à une stratégie d'intégration de certaines balises d'au moins deux fichiers sources : pour récupérer au moins les <div>+<head>, <p>, <name>+<s>, <graphic>, etc.

Je vois deux workflow possibles :

  • xmldiff → script del+ins+change (=xml-patch) basé sur des balises XML → généralisation pour intégration de certaines balises dans une autre version
  • tokenization TXM + token-diff → script del+ins+change au niveau token → généralisation du niveau des tokens pour projeter ensuite certaines structures à récupérer

Tant que ce chantier n'a pas abouti, on peut déjà utiliser une des trois versions au choix comme corpus exemple et comme corpus de test (recettes). À défaut, je recommande d'utiliser la version Github.

B. Construction d'un corpus des oeuvres de Jules Verne

Wikisource propose plusieurs oeuvres intéressantes : http://fr.wikisource.org/wiki/Auteur:Jules_Verne

Par exemple “Vingt mille lieues sous les mers” se trouve ici : http://fr.wikisource.org/wiki/Vingt_mille_lieues_sous_les_mers

Plusieurs formats sont disponibles :

Format EPUB

Outils

Outils EPUB

Outils HTML

  • Tidy sait convertir du HTML en XHTML:

tidy -asxhtml -numeric -utf8 -o vingt_mille.xhtml index.html

Outils XHTML

Outils DOCX / ODT

Outils TEI

public/projets_corpus.1467123228.txt.gz · Dernière modification: 2016/06/28 16:13 par slh@ens-lyon.fr