Outils pour utilisateurs

Outils du site


public:labex_obvil

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
public:labex_obvil [2015/10/06 14:26]
slh@ens-lyon.fr créée
public:labex_obvil [2015/10/12 18:53] (Version actuelle)
Frederic.Glorieux@paris-sorbonne.fr
Ligne 11: Ligne 11:
 Projet suivi avec SM à la suite de l'​atelier de formation TXM du 22/09/2015 : définir un imaginaire de la guerre 14 en se basant sur un corpus de presse d'​Apollinaire. Projet suivi avec SM à la suite de l'​atelier de formation TXM du 22/09/2015 : définir un imaginaire de la guerre 14 en se basant sur un corpus de presse d'​Apollinaire.
  
-Parmi les hypothèses de base, un jeu de métadonnées qualifiant chaque article peut servir à contraster leur contenu ou à le situer dans les outils documentaires (eg concordances).+Parmi les hypothèses de base, un jeu de métadonnées qualifiant chaque article peut servir à contraster leur contenu ou à le situer dans les outils documentaires (eg références de concordances ​précises).
  
 ===== Importation du corpus dans TXM ===== ===== Importation du corpus dans TXM =====
Ligne 17: Ligne 17:
 ==== Choix de l'​unité documentaire ==== ==== Choix de l'​unité documentaire ====
  
-Le corpus d'​articles est composé d'un seul fichier encodé en TEI P5 issu de la conversion d'un document Word stylé avec la chaîne [[http://elec.enc.sorbonne.fr/​diple/doc/welcome|Diple]]. Soit +Le corpus d'​articles est composé d'un seul fichier encodé en TEI P5 issu de la conversion d'un document Word stylé avec la chaîne [[http://obvil-dev.paris-sorbonne.fr/​developpements/odt2tei/|odt2tei]]. 
-  * A) les articles sont encodés par une structure interne d'​origine et il n'y a qu'une édition d'un seul texte (correspondant à la totalité du corpus) + 
-  * B) les articles sont séparés par fichier et ont chacun leur édition (par exemple avec une feuille XSL front de split) +En termes d'​unité documentaire (portant les métadonnées),​ soit 
-Vu le nombre d'​articles,​ il semble plus simple dans un premier temps de laisser les articles encodés par une structure interne A).+  * A) les articles sont encodés par une structure interne d'​origine, par exemple de nom '​article', ​et il n'y a qu'une édition d'un seul texte (correspondant à la totalité du corpus) 
 +  * B) les articles sont séparés par fichier et ont chacun leur édition (par exemple avec une feuille XSL front de split) ​et il faut leur associer leurs métadonnées par le biais d'un fichier '​metadata.csv'​. 
 + 
 +**Hypothèse 1)** Vu le nombre d'​articles,​ il semble plus simple dans un premier temps de laisser les articles encodés par une structure interne ​et donc de laisser la source sous le forme d'un seul texte A).
  
 ==== Choix des métadonnées ==== ==== Choix des métadonnées ====
  
 Des métadonnées d'​articles semblent encodées au sein du Word avec des entrées d'​index. Des métadonnées d'​articles semblent encodées au sein du Word avec des entrées d'​index.
 +
 +Il faut trouver un moyen de transférer ces informations dans des propriétés des structures '​article'​ au sein du XML TEI.
 +
 +**Hypothèse 2)** Si ces informations ont été transférées par Diple, une XSL front peut faire ce travail.
 +
 +==== Réglage du hors-texte ====
 +
 +Les articles semblent précédés par du texte à ne pas indexer mais à présenter dans les éditions HTML.
 +
 +**Hypothèse 3)** Si ces informations sont clairement délimitées dans le XML TEI, le paramètre '​ignoredElements'​ du [[http://​txm.sourceforge.net/​doc/​manual/​manual63.xhtml#​toc209 | module XML/w+CSV]] peut permettre sa gestion en '​hors-texte à éditer'​.
 +
 +\\ 
 +
 +----
 +-> [[:|Retour à la liste des projets]].
 +
public/labex_obvil.1444134371.txt.gz · Dernière modification: 2015/10/06 14:26 par slh@ens-lyon.fr