Différences

Cette page vous donne les différences entre la révision choisie et la version actuelle de la page.

public:projets_corpus [2016/02/21 20:26]
slh@ens-lyon.fr
public:projets_corpus [2016/06/29 21:05] (version actuelle)
slh@ens-lyon.fr
Ligne 1: Ligne 1:
====== Projets de corpus exemples ====== ====== Projets de corpus exemples ======
-===== Construction d'un corpus des oeuvres de Jules Verne =====+===== A. Tour du monde en 80 jours de Jules Verne ===== 
 + 
 +==== Sources ==== 
 + 
 +Le fac-similé est disponible : [[https://fr.wikisource.org/wiki/Fichier:Verne_-_Le_Tour_du_monde_en_quatre-vingts_jours.djvu]]. 
 + 
 +3 éditions numériques sont disponibles sous licence ouverte. 
 + 
 +=== Wikisource === 
 + 
 +[[https://fr.wikisource.org/wiki/Le_Tour_du_monde_en_quatre-vingts_jours/Texte_entier]] -> transformé en XML-TEI avec OxGarage. 
 + 
 +=== Github === 
 + 
 +[[https://github.com/oeuvres/verne/blob/gh-pages/verne_tour-du-monde.xml]] -> nativement TEI. 
 + 
 +=== TLN/LI Tours === 
 + 
 +[[http://tln.li.univ-tours.fr/Tln_Corpus80jours.html]] -> augmenté de <s> et <name> (entités nommées) calculés avec Unitex. 
 + 
 +==== État courant ==== 
 + 
 +Les trois versions ont été déposées dans %%smb://ensldfs.ens-lyon.fr/services/Laboratoires/labo_ana_corpus/Projets/Textométrie/SpUV/JulesVerne/TDM80J%%. Un fichier import est déjà préparé pour XML/w+CSV. 
 + 
 +=== Comparaison === 
 + 
 +J'ai comparé l'usage des balises TEI des 3 fichiers avec la macro XMLStatistics : 
 + 
 +<code> 
 + TDM 80 jours  
 + TLN/LI Wikisource Github TOTAL 
 +anchor 225 225 
 +author 1 1 2 
 +authority 7 7 
 +availability 1 1 2 
 +bibl 1 1 
 +body 1 1 1 3 
 +cell 27 27 
 +creation 1 1 2 
 +date 4 1 5 
 +div 37 42 37 116 
 +edition 1 1 
 +editionStmt 1 1 2 
 +figure 4 4 
 +fileDesc 1 1 2 
 +filedesc 1 1 
 +graphic 56 56 
 +head 41 37 78 
 +hi 242 203 445 
 +item 70 70 
 +language 1 1 2 
 +langUsage 1 1 2 
 +lb 76 37 113 
 +list 4 4 
 +name 3345 1 3346 
 +note 1 1 2 
 +p 4390 2107 1996 8493 
 +profileDesc 1 1 2 
 +publicationStmt 1 1 1 3 
 +publisher 1 1 
 +ref 51 1 52 
 +resp 3 1 4 
 +respStmt 3 1 4 
 +row 9 9 
 +s 4390 4390 
 +sourceDesc 1 1 2 
 +table 1 1 
 +TEI 1 1 1 3 
 +teiHeader 1 1 1 3 
 +text 1 1 1 3 
 +title 1 1 2 
 +titleStmt 1 1 1 3 
 +w 358 358 
 +TOTAL 25098 5938 4666 35702 
 +</code> 
 + 
 +=== Synthèse === 
 + 
 +Chaque version contient des balises ou tokens intéressants qui lui sont propres. Il serait intéressant de construire une version qui contient tout ce qui est utile, puis d'y ajouter des <pb/> pour pouvoir produire une édition synoptique avec fac-similé. 
 + 
 +Pour l'instant je réfléchis à une stratégie d'intégration de certaines balises 
 +d'au moins deux fichiers sources : pour récupérer au moins les %%<div>+<head>, <p>, <name>+<s>, <graphic>, etc%%. 
 + 
 +Je vois deux workflow possibles : 
 +  * xmldiff -> script del+ins+change (=xml-patch) basé sur des balises XML -> généralisation pour intégration de certaines balises dans une autre version 
 +  * tokenization TXM + token-diff -> script del+ins+change au niveau token -> généralisation du niveau des tokens pour projeter ensuite certaines structures à récupérer 
 + 
 +Tant que ce chantier n'a pas abouti, on peut déjà utiliser une des trois versions au choix comme corpus exemple et comme corpus de test (recettes). À défaut, je recommande d'utiliser la version Github. 
 + 
 +La version Wikisource contient plus de tokens. J'ai commencé à y encadrer les contenus annexes (hors texte de l'oeuvre lui-même par rapport aux autres versions) dans des sections front et back. 
 + 
 +===== B. Construction d'un corpus des oeuvres de Jules Verne =====
Wikisource propose plusieurs oeuvres intéressantes : [[http://fr.wikisource.org/wiki/Auteur:Jules_Verne]] Wikisource propose plusieurs oeuvres intéressantes : [[http://fr.wikisource.org/wiki/Auteur:Jules_Verne]]
Ligne 13: Ligne 104:
[[Analyse format EPUB Vingt Mille]] [[Analyse format EPUB Vingt Mille]]
 +
 +===== Outils =====
==== Outils EPUB ==== ==== Outils EPUB ====
  * [[https://calibre-ebook.com|Calibre]] sait convertir EPUB en HTML (conversion HTMLZ: le ZIP contient un fichier HTML unique)   * [[https://calibre-ebook.com|Calibre]] sait convertir EPUB en HTML (conversion HTMLZ: le ZIP contient un fichier HTML unique)
-  * 'epub-tools' offre une API Java au format EPUB et offre quelques applications comme la conversion TEI->EPUB : [[https://code.google.com/p/epub-tools]]+  * [[https://code.google.com/p/epub-tools|epub-tools]] offre une API Java au format EPUB et offre quelques applications comme la conversion TEI->EPUB
  * %%<oXygen/>%% sait lire un fichier EPUB : [[http://www.oxygenxml.com/xml_editor/epub.html]]   * %%<oXygen/>%% sait lire un fichier EPUB : [[http://www.oxygenxml.com/xml_editor/epub.html]]
Ligne 26: Ligne 119:
tidy -asxhtml -numeric -utf8 -o vingt_mille.xhtml index.html tidy -asxhtml -numeric -utf8 -o vingt_mille.xhtml index.html
</code> </code>
 +  * [[https://www.libreoffice.org/discover/writer|LibreOffice Writer]] sait lire du HTML et le sauver en ODT
==== Outils XHTML ==== ==== Outils XHTML ====
  * [[http://www.tei-c.org/oxgarage|OxGarage]] sait convertir XHTML en XML TEI P5   * [[http://www.tei-c.org/oxgarage|OxGarage]] sait convertir XHTML en XML TEI P5
 +  * [[https://www.libreoffice.org/discover/writer|LibreOffice Writer]] sait lire du XHTML et le sauver en ODT
-==== Outils DOCX ====+==== Outils DOCX / ODT ====
-  * [[http://obvil-dev.paris-sorbonne.fr/developpements/Odette|Odette]]+  * [[http://obvil-dev.paris-sorbonne.fr/developpements/Odette|Odette]] sait convertir du ODT en TEI ou HTML
  * [[http://nl.ijs.si/tei/convert|DOCX to TEI to HTML Conversion]]   * [[http://nl.ijs.si/tei/convert|DOCX to TEI to HTML Conversion]]
 +  * [[https://www.libreoffice.org/discover/writer|LibreOffice Writer]] sait lire du DOCX et le sauver en ODT ou HTML
==== Outils TEI ==== ==== Outils TEI ====
public/projets_corpus.1456082797.txt.gz · Dernière modification: 2016/02/21 20:26 par slh@ens-lyon.fr