Différences

Cette page vous donne les différences entre la révision choisie et la version actuelle de la page.

public:projets_corpus [2014/09/10 22:07]
slh@ens-lyon.fr
public:projets_corpus [2016/06/29 21:05] (version actuelle)
slh@ens-lyon.fr
Ligne 1: Ligne 1:
====== Projets de corpus exemples ====== ====== Projets de corpus exemples ======
-===== Construction d'un corpus des oeuvres de Jules Verne =====+===== A. Tour du monde en 80 jours de Jules Verne =====
-Wikisource propose plusieurs oeuvres intéressantes : [[http://fr.wikisource.org/wiki/Auteur:Jules_Verne]]+==== Sources ====
-Par exemple "Vingt mille lieues sous les mers" se trouve ici : [[http://fr.wikisource.org/wiki/Vingt_mille_lieues_sous_les_mers]]+Le fac-similé est disponible : [[https://fr.wikisource.org/wiki/Fichier:Verne_-_Le_Tour_du_monde_en_quatre-vingts_jours.djvu]].
-Plusieurs formats sont disponibles +3 éditions numériques sont disponibles sous licence ouverte.
-  * le format epub (epub2 ou epub3) semble le plus travaillé : [[http://wsexport.wmflabs.org/tool/book.php?lang=fr&format=epub&page=Vingt_mille_lieues_sous_les_mers]]+
-==== Format EPUB ====+=== Wikisource ===
-Un fichier epub est une archive ZIP qui contient un répertoire OPS qui contient : +[[https://fr.wikisource.org/wiki/Le_Tour_du_monde_en_quatre-vingts_jours/Texte_entier]] -> transformé en XML-TEI avec OxGarage.
-  * un fichier XML 'toc.ncx' qui encode la navigation dans le livre et donc son ordre des chapitres +
-  * un fichier XML 'content.opf' qui renseigne sur le contenu du livre +
-[en fait le fichier 'content.opf' est déclaré dans le fichier 'META-INF/container.xml' :\\ <code> +
-<container version="1.0" +
- xmlns="urn:oasis:names:tc:opendocument:xmlns:container"> +
- <rootfiles> +
- <rootfile full-path="OPS/content.opf" media-type="application/oebps-package+xml" /> +
- </rootfiles> +
-</container> +
-</code> +
-+
-  * les fichiers XHTML de l'édition du texte :\\ Par exemple "c1_Vingt_mille_lieues_sous_les_mers_Partie_1_Chapitre_1.xhtml" contient le XHTML du premier chapitre. +
-  * un répertoire 'images' contenant les images utilisées par les fichiers XHTML+
-Le fichier 'toc.ncx' contient les chemins uniques suivants :\\ <code> +=== Github ===
-xmlstarlet el < toc.ncx | awk '!seen[$0]++' +
-</code>+
-<code> +[[https://github.com/oeuvres/verne/blob/gh-pages/verne_tour-du-monde.xml]] -> nativement TEI.
-ncx/head +
-ncx/head/meta +
-ncx/docTitle +
-ncx/docTitle/text +
-ncx/docAuthor +
-ncx/docAuthor/text +
-ncx/navMap +
-ncx/navMap/navPoint +
-ncx/navMap/navPoint/navLabel +
-ncx/navMap/navPoint/navLabel/text +
-ncx/navMap/navPoint/content +
-</code>+
-Le fichier encode les entrées de la table des matières à plat :\\ <code> <navMap> +=== TLN/LI Tours ===
- <navPoint id="title" playOrder="1"> +
- <navLabel> +
- <text>Titre</text> +
- </navLabel> +
- <content src="title.xhtml" /+
- </navPoint> +
- <navPoint id="c0_Vingt_mille_lieues_sous_les_mers" playOrder="2"> +
- <navLabel> +
- <text>Vingt mille lieues sous les mers</text> +
- </navLabel> +
- <content src="c0_Vingt_mille_lieues_sous_les_mers.xhtml" /> +
- </navPoint> +
- <navPoint id="c1_Vingt_mille_lieues_sous_les_mers_Partie_1_Chapitre_1" +
- playOrder="3"> +
- <navLabel> +
- <text>Chapitre I.</text> +
- </navLabel> +
- <content +
- src="c1_Vingt_mille_lieues_sous_les_mers_Partie_1_Chapitre_1.xhtml" /> +
- </navPoint> +
-</code>+
-Ce qui correspond à : +[[http://tln.li.univ-tours.fr/Tln_Corpus80jours.html]] -> augmenté de <s> et <name> (entités nommées) calculés avec Unitex.
-  * page de titre +
-  * table des matières +
-  * premier chapitre+
-Le fichier 'content.opf' contient les chemins uniques suivants :\\ <code> +==== État courant ==== 
-xmlstarlet el < content.opf | cat -n | sort --key=2.1 -b -u | sort -n | cut -c8- + 
-</code> +Les trois versions ont été déposées dans %%smb://ensldfs.ens-lyon.fr/services/Laboratoires/labo_ana_corpus/Projets/Textométrie/SpUV/JulesVerne/TDM80J%%. Un fichier import est déjà préparé pour XML/w+CSV. 
-ou + 
-<code> +=== Comparaison === 
-xmlstarlet el < content.opf | awk '!seen[$0]++' + 
-</code>+J'ai comparé l'usage des balises TEI des 3 fichiers avec la macro XMLStatistics :
<code> <code>
-package + TDM 80 jours  
-package/metadata + TLN/LI Wikisource Github TOTAL 
-package/metadata/dc:identifier +anchor 225 225 
-package/metadata/dc:language +author 1 1 2 
-package/metadata/dc:title +authority 7 7 
-package/metadata/dc:source +availability 1 1 2 
-package/metadata/dc:date +bibl 1 1 
-package/metadata/dc:rights +body 1 1 1 3 
-package/metadata/dc:contributor +cell 27 27 
-package/metadata/dc:creator +creation 1 1 2 
-package/metadata/dc:publisher +date 4 1 5 
-package/metadata/meta +div 37 42 37 116 
-package/manifest +edition 1 1 
-package/manifest/item +editionStmt 1 1 2 
-package/spine +figure 4 4 
-package/spine/itemref +fileDesc 1 1 2 
-package/guide +filedesc 1 1 
-package/guide/reference+graphic 56 56 
 +head 41 37 78 
 +hi 242 203 445 
 +item 70 70 
 +language 1 1 2 
 +langUsage 1 1 2 
 +lb 76 37 113 
 +list 4 4 
 +name 3345 1 3346 
 +note 1 1 2 
 +p 4390 2107 1996 8493 
 +profileDesc 1 1 2 
 +publicationStmt 1 1 1 3 
 +publisher 1 1 
 +ref 51 1 52 
 +resp 3 1 4 
 +respStmt 3 1 4 
 +row 9 9 
 +s 4390 4390 
 +sourceDesc 1 1 2 
 +table 1 1 
 +TEI 1 1 1 3 
 +teiHeader 1 1 1 3 
 +text 1 1 1 3 
 +title 1 1 2 
 +titleStmt 1 1 1 3 
 +w 358 358 
 +TOTAL 25098 5938 4666 35702
</code> </code>
-=== Synthèse des éléments du fichier content.opf ===+=== Synthèse ===
-  * %%/package/metadata%% contient les métadonnées du texte au format Dublin Core +Chaque version contient des balises ou tokens intéressants qui lui sont propres. Il serait intéressant de construire une version qui contient tout ce qui est utile, puis d'y ajouter des &lt;pb/&gt; pour pouvoir produire une édition synoptique avec fac-similé.
- Example : %%<dc:title>Vingt mille lieues sous les mers</dc:title>%% +
-  * chaque %%/package/manifest/item%% déclare un fichier de données\\ (comme une page de titre, une page HTML contenant un chapitre, une image d'illustration, etc.) +
-  * %%/package/spine%% encode l'ordre du contenu du texte : chaque %%/package/spine/itemref%% y désigne +
-  un fichier de données participant à l'affichage du texte (la page de titre, la table des matières puis chaque chapitre)\\ Exemples : +
- * %%/package/spine/itemref@href=&quot;c0_Vingt_mille_lieues_sous_les_mers.xhtml"%% la page de la table des matières +
- * %%/package/spine/itemref@href=&quot;c1_Vingt_mille_lieues_sous_les_mers_Partie_1_Chapitre_1.xhtml"%% la page du premier chapitre+
-  * %%/package/guide%% encode l'ordre des éléments du livre : chaque %%/package/guide/reference%% y désigne +Pour l'instant je réfléchis à une stratégie d'intégration de certaines balises 
-  un élément du livre (la couverture, la page de titre, le texte = la page de la table des matières, la page de copyright)+d'au moins deux fichiers sources : pour récupérer au moins les %%<div>+<head>, <p>, <name>+<s>, <graphic>, etc%%.
-Bref, bien que toc.ncx soit la référence pour l'ordre des éléments du texte +Je vois deux workflow possibles : 
-(à l'origine de la construction de la table des matières par les outils de visualisation), +  * xmldiff -> script del+ins+change (=xml-patch) basé sur des balises XML -> généralisation pour intégration de certaines balises dans une autre version 
-le fichier content.opf contient également des informations cocnernant l'ordre du contenu du texte.+  * tokenization TXM + token-diff -> script del+ins+change au niveau token -> généralisation du niveau des tokens pour projeter ensuite certaines structures à récupérer
-=== fichiers XHTML de l'édition d'un texte ===+Tant que ce chantier n'a pas abouti, on peut déjà utiliser une des trois versions au choix comme corpus exemple et comme corpus de test (recettes). À défaut, je recommande d'utiliser la version Github.
-Le répertoire OPS contient également les fichiers XHTML de l'édition du texte.+La version Wikisource contient plus de tokens. J'ai commencé à y encadrer les contenus annexes (hors texte de l'oeuvre lui-même par rapport aux autres versions) dans des sections front et back.
-Les chemins uniques du fichier "c1_Vingt_mille_lieues_sous_les_mers_Partie_1_Chapitre_1.xhtml" sont : +===== B. Construction d'un corpus des oeuvres de Jules Verne =====
-<code> +
-xmlstarlet el < c1_Vingt_mille_lieues_sous_les_mers_Partie_1_Chapitre_1.xhtml | awk '!seen[$0]++' +
-</code>+
-<code> +Wikisource propose plusieurs oeuvres intéressantes : [[http://fr.wikisource.org/wiki/Auteur:Jules_Verne]]
-html +
-html/head +
-html/head/meta +
-html/head/link +
-html/head/title +
-html/body +
-html/body/p +
-html/body/div +
-html/body/div/span +
-html/body/div/span/span +
-html/body/div/div +
-html/body/div/div/div +
-html/body/div/div/div/img +
-html/body/div/p +
-html/body/div/p/br +
-html/body/div/h3 +
-html/body/div/h3/span +
-html/body/div/h3/span/br +
-html/body/div/h3/span/span +
-html/body/div/br +
-html/body/div/p/span +
-html/body/div/p/span/span +
-html/body/div/p/a +
-html/body/div/p/i +
-html/body/div/p/sup +
-html/body/div/p/sup/a +
-html/body/div/p/span/i +
-html/body/div/div/div/div +
-html/body/div/div/div/div/img +
-html/body/div/div/div/div/div +
-html/body/div/div/div/div/div/i +
-html/body/hr +
-html/body/ol +
-html/body/ol/li +
-html/body/ol/li/span +
-html/body/ol/li/span/a +
-</code>+
-=== Synthèse du XHTML d'un chapitre ===+Par exemple "Vingt mille lieues sous les mers" se trouve ici : [[http://fr.wikisource.org/wiki/Vingt_mille_lieues_sous_les_mers]]
-  * l'entête encode le titre de la page et l'utilisation de la CSS "main.css" : +Plusieurs formats sont disponibles
-<code> +  * le format epub (epub2 ou epub3) semble le plus travaillé : [[http://wsexport.wmflabs.org/tool/book.php?lang=fr&amp;format=epub&amp;page=Vingt_mille_lieues_sous_les_mers]]
- <head> +
- <meta content="application/xhtml+xml;charset=UTF-8" http-equiv="content-type" /> +
- <link type="text/css" rel="stylesheet" href="main.css" /> +
- <title>Chapitre I.</title> +
- </head> +
-</code> +
-  * le titre du chapitre est encodé par : +
-<code> +
- <h3 style="font-weight: normal; text-align: center; line-height: 1.5em;"> +
- <span class="mw-headline" id="CHAPITRE_PREMIER_un_.C3.A9cueil_fuyant."> +
- CHAPITRE PREMIER +
- <br /> +
- <br /> +
- <span style="font-variant: small-caps">un écueil fuyant.</span> +
- </span> +
- </h3> +
-</code> +
-  * le contenu est encodé par des %%<p>%% et quelques %%<br/>%% : +
-<code> +
- <br /> +
- <p>L’année 1866 fut marquée par un événement bizarre, un phénomène +
- inexpliqué et inexplicable que personne n’a sans doute oublié. Sans +
- parler des rumeurs qui agitaient les populations des ports et +
- surexcitaient l’esprit public à l’intérieur des continents, les gens +
- de mer furent particulièrement émus. Les négociants, armateurs, +
- capitaines de navires, skippers et masters de l’Europe et de +
- l’Amérique, officiers des marines militaires de tous pays, et, après +
- eux, les gouvernements des divers États des deux continents, se +
- préoccupèrent de ce fait au plus haut point.</p> +
-</code> +
-  * il y a des mises en évidence par %%<i>%% : +
-<code> +
- En effet, le 20 juillet 1866, le steamer +
- <i>Governor-Higginson</i> +
- , de +
- <i>Calcutta and Burnach steam navigation Company</i> +
- , avait rencontré cette masse mouvante à cinq milles dans l’est des +
-</code> +
-  * il y a des appels de note : +
-<code> +
- et 60° 35′ de longitude à l’ouest du méridien de Greenwich. Dans +
- cette observation simultanée, on crut pouvoir évaluer la longueur +
- minimum du mammifère à plus de trois cent cinquante pieds anglais  +
- <sup id="cite_ref-1" class="reference"> +
- <a href="#cite_note-1">[1]</a> +
- </sup> +
- , puisque le +
-</code> +
-  * puis les notes sont encodées en bas de page : +
-<code> +
- <hr /> +
- <ol class="references"> +
- <li id="cite_note-1"> +
- <span class="mw-cite-backlink"> +
- <a href="#cite_ref-1">↑</a> +
- </span> +
- <span class="reference-text">Environ 106 mètres. Le pied anglais n’est que de +
- 30,40 centimètres.</span> +
- </li> +
- </ol> +
-</code> +
-  * les liens hypertexte sont encodés par des %%<a>%% : +
-<code> +
- Lacépède, ni +
- <a href="http://fr.wikipedia.org/wiki/Auguste_Dum%C3%A9ril" class=&quot;extiw" +
- title=&quot;w:Auguste Duméril">M. Dumeril</a> +
- , ni +
-</code> +
-  * les sauts de page sont encodés par : +
-<code> +
- <span> +
- <span class="pagenum ws-pagenum" id="_2" +
- title="Page:Verne - Vingt mille lieues sous les mers.djvu/12" /> +
- </span> +
-</code> +
-  * les illustrations sont encodées par des %%<img>%% : +
-<code> +
- <div class="center"> +
- <div class="floatnone"> +
- <img +
- alt="//upload.wikimedia.org/wikipedia/commons/thumb/6/66/Vingtmillelieue00vern_orig_0011_1.jpg/420px-Vingtmillelieue00vern_orig_0011_1.jpg" +
- src="images/c48_commons_thumb_6_66_Vingtmillelieue00vern_orig_0011_1.jpg_420px_Vingtmillelieue00vern_orig_0011_1.jpg" +
- style="width:420; height:543; " /> +
- </div> +
- </div> +
-</code> +
-ou encore : +
-<code> +
- <div class="center"> +
- <div class="thumb tnone"> +
- <div class="thumbinner" style="width:422px;"> +
- <img +
- alt="//upload.wikimedia.org/wikipedia/commons/thumb/8/84/Vingtmillelieue00vern_orig_0018_1.jpg/420px-Vingtmillelieue00vern_orig_0018_1.jpg" +
- src="images/c49_commons_thumb_8_84_Vingtmillelieue00vern_orig_0018_1.jpg_420px_Vingtmillelieue00vern_orig_0018_1.jpg" +
- class="thumbimage" style="width:420; height:618; " /> +
- <div class="thumbcaption">+
- Les ingénieurs procédèrent à la visite du +==== Format EPUB ====
- <i>Scotia</i> +
- </div> +
- </div> +
- </div> +
- </div> +
-</code> +
-  * la langue peut être encodée par des %%xml:lang%% : +
-<code> +
- , tous navires de première marche, et les plus vastes qui, après le +
- <span class="lang-en" xml:lang="en"> +
- <i>Great-Eastern</i> +
- </span> +
- , eussent jamais sillonné les mers. Ainsi donc, en 1867, la +
-</code>+
-==== Synthèse de la structure d'un texte ====+[[Analyse format EPUB Vingt Mille]]
-Un fichier XHTML de chapitre ne fait pas référence à la partie dans laquelle il se trouve.+===== Outils =====
-Aucun des fichiers de structuration 'toc.ncx' ou 'content.opf' ne mentionne les parties du livre +==== Outils EPUB ====
-(si ce n'est dans les noms de fichiers et les identifiants de chapitre) : +
-  * toc.ncx :\\ <code> +
- <navPoint id="c1_Vingt_mille_lieues_sous_les_mers_Partie_1_Chapitre_1" +
- playOrder="3"> +
- <navLabel> +
- <text>Chapitre I.</text> +
- </navLabel> +
- <content +
- src="c1_Vingt_mille_lieues_sous_les_mers_Partie_1_Chapitre_1.xhtml" /> +
- </navPoint> +
-</code> +
-  * content.opf :\\ <code> +
- <item id="c0_Vingt_mille_lieues_sous_les_mers" href="c0_Vingt_mille_lieues_sous_les_mers.xhtml" media-type="application/xhtml+xml" /> +
-</code>+
-Le fichier XHTML de la table des matières (c0_Vingt_mille_lieues_sous_les_mers.xhtml) +  * [[https://calibre-ebook.com|Calibre]] sait convertir EPUB en HTML (conversion HTMLZ: le ZIP contient un fichier HTML unique) 
-mentionne les parties mais sans structuration XML : +  * [[https://code.google.com/p/epub-tools|epub-tools]] offre une API Java au format EPUB et offre quelques applications comme la conversion TEI->EPUB 
-<code> +  * %%<oXygen/>%% sait lire un fichier EPUB : [[http://www.oxygenxml.com/xml_editor/epub.html]]
- <body> +
- <p /+
- <div> +
- <div id="ws-summary" style="margin-top:1em"> +
- <div style="text-align:center;clear:both;"> +
- <p>TABLE DES MATIÈRES</p> +
- <hr +
- style="margin-top: 2em; margin-bottom: 2em; auto;border:none;background:black;width:1em;height:1px;margin-left:auto;margin-right:auto;" /+
- <p>PREMIÈRE PARTIE.</p+
- </div> +
- <div class="tableItem" +
- style="position:relative;margin:.125em auto;background:#FFFFFF;color:#000000;line-height:normal;zoom:1"+
- <div style="margin-right:0px"> +
- <div style="float:left;width:100%"> +
- <div +
- style="float:left;z-index:2;min-width:45px;text-indent:0;text-align:right;white-space:nowrap"> +
- <span style="background:#FFFFFF"> +
- <a +
- href="c1_Vingt_mille_lieues_sous_les_mers_Partie_1_Chapitre_1.xhtml" +
- title="Vingt mille lieues sous les mers/Partie 1/Chapitre 1"> +
- <span style="font-variant: small-caps">Chapitre</span> +
- I. +
- </a> +
-   +
- </span> +
- </div> +
- <div style="position:relative;margin-left:45px"> +
- <div style="position:relative;z-index:2;text-align:justify;"> +
- <span style="background:#FFFFFF">Un écueil fuyant </span> +
- </div>+
- </div>+==== Outils HTML ====
- </div>+  * [[http://www.html-tidy.org|Tidy]] sait convertir du HTML en XHTML: 
 +<code> 
 +tidy -asxhtml -numeric -utf8 -o vingt_mille.xhtml index.html 
 +</code> 
 +  * [[https://www.libreoffice.org/discover/writer|LibreOffice Writer]] sait lire du HTML et le sauver en ODT
 +==== Outils XHTML ====
- </div> +  * [[http://www.tei-c.org/oxgarage|OxGarage]] sait convertir XHTML en XML TEI P5 
- </div> +  * [[https://www.libreoffice.org/discover/writer|LibreOffice Writer]] sait lire du XHTML et le sauver en ODT
-</code>+
-Bref, il faut encoder la structuration du texte en parties à la main.+==== Outils DOCX / ODT ====
-==== Outils EPUB ====+  * [[http://obvil-dev.paris-sorbonne.fr/developpements/Odette|Odette]] sait convertir du ODT en TEI ou HTML 
 +  * [[http://nl.ijs.si/tei/convert|DOCX to TEI to HTML Conversion]] 
 +  * [[https://www.libreoffice.org/discover/writer|LibreOffice Writer]] sait lire du DOCX et le sauver en ODT ou HTML
-  * 'epub-tools' offre une API Java au format EPUB et offre quelques applications comme la conversion TEI->EPUB : [[https://code.google.com/p/epub-tools]] +==== Outils TEI ====
-  * %%<oXygen/>%% sait lire un fichier EPUB : [[http://www.oxygenxml.com/xml_editor/epub.html]]+
 +  * [[http://dcl.ils.indiana.edu/teibp|TEI Boilerplate]]
public/projets_corpus.1410379625.txt.gz · Dernière modification: 2014/09/10 22:07 par slh@ens-lyon.fr