Différences

Cette page vous donne les différences entre la révision choisie et la version actuelle de la page.

public:projets_corpus [2016/06/28 16:05]
slh@ens-lyon.fr
public:projets_corpus [2016/06/29 21:05] (version actuelle)
slh@ens-lyon.fr
Ligne 7: Ligne 7:
Le fac-similé est disponible : [[https://fr.wikisource.org/wiki/Fichier:Verne_-_Le_Tour_du_monde_en_quatre-vingts_jours.djvu]]. Le fac-similé est disponible : [[https://fr.wikisource.org/wiki/Fichier:Verne_-_Le_Tour_du_monde_en_quatre-vingts_jours.djvu]].
-3 éditions numériques sont disponibles.+3 éditions numériques sont disponibles sous licence ouverte.
=== Wikisource === === Wikisource ===
Ligne 27: Ligne 27:
=== Comparaison === === Comparaison ===
-J'ai appliqué la macro XMLStatistics pour comparer l'usage des balises TEI des 3 fichiers :+J'ai comparé l'usage des balises TEI des 3 fichiers avec la macro XMLStatistics :
<code> <code>
Ligne 78: Ligne 78:
=== Synthèse === === Synthèse ===
 +
 +Chaque version contient des balises ou tokens intéressants qui lui sont propres. Il serait intéressant de construire une version qui contient tout ce qui est utile, puis d'y ajouter des <pb/> pour pouvoir produire une édition synoptique avec fac-similé.
Pour l'instant je réfléchis à une stratégie d'intégration de certaines balises Pour l'instant je réfléchis à une stratégie d'intégration de certaines balises
Ligne 86: Ligne 88:
  * tokenization TXM + token-diff -> script del+ins+change au niveau token -> généralisation du niveau des tokens pour projeter ensuite certaines structures à récupérer   * tokenization TXM + token-diff -> script del+ins+change au niveau token -> généralisation du niveau des tokens pour projeter ensuite certaines structures à récupérer
-Tant que ce chantier n'a pas abouti, on peut utiliser une des trois versions au choix comme corpus exemple et comme corpus de test (recettes).+Tant que ce chantier n'a pas abouti, on peut déjà utiliser une des trois versions au choix comme corpus exemple et comme corpus de test (recettes). À défaut, je recommande d'utiliser la version Github. 
 + 
 +La version Wikisource contient plus de tokens. J'ai commencé à y encadrer les contenus annexes (hors texte de l'oeuvre lui-même par rapport aux autres versions) dans des sections front et back.
===== B. Construction d'un corpus des oeuvres de Jules Verne ===== ===== B. Construction d'un corpus des oeuvres de Jules Verne =====
public/projets_corpus.1467122707.txt.gz · Dernière modification: 2016/06/28 16:05 par slh@ens-lyon.fr