Outils pour utilisateurs

Outils du site


public:labex_obvil

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:labex_obvil [2015/10/06 15:33]
slh@ens-lyon.fr
public:labex_obvil [2015/10/12 18:53] (Version actuelle)
Frederic.Glorieux@paris-sorbonne.fr
Ligne 11: Ligne 11:
 Projet suivi avec SM à la suite de l'​atelier de formation TXM du 22/09/2015 : définir un imaginaire de la guerre 14 en se basant sur un corpus de presse d'​Apollinaire. Projet suivi avec SM à la suite de l'​atelier de formation TXM du 22/09/2015 : définir un imaginaire de la guerre 14 en se basant sur un corpus de presse d'​Apollinaire.
  
-Parmi les hypothèses de base, un jeu de métadonnées qualifiant chaque article peut servir à contraster leur contenu ou à le situer dans les outils documentaires (eg concordances).+Parmi les hypothèses de base, un jeu de métadonnées qualifiant chaque article peut servir à contraster leur contenu ou à le situer dans les outils documentaires (eg références de concordances ​précises).
  
 ===== Importation du corpus dans TXM ===== ===== Importation du corpus dans TXM =====
Ligne 17: Ligne 17:
 ==== Choix de l'​unité documentaire ==== ==== Choix de l'​unité documentaire ====
  
-Le corpus d'​articles est composé d'un seul fichier encodé en TEI P5 issu de la conversion d'un document Word stylé avec la chaîne [[http://elec.enc.sorbonne.fr/​diple/doc/welcome|Diple]].+Le corpus d'​articles est composé d'un seul fichier encodé en TEI P5 issu de la conversion d'un document Word stylé avec la chaîne [[http://obvil-dev.paris-sorbonne.fr/​developpements/odt2tei/|odt2tei]].
  
 En termes d'​unité documentaire (portant les métadonnées),​ soit : En termes d'​unité documentaire (portant les métadonnées),​ soit :
-  * A) les articles sont encodés par une structure interne d'​origine et il n'y a qu'une édition d'un seul texte (correspondant à la totalité du corpus)+  * A) les articles sont encodés par une structure interne d'​origine, par exemple de nom '​article', ​et il n'y a qu'une édition d'un seul texte (correspondant à la totalité du corpus)
   * B) les articles sont séparés par fichier et ont chacun leur édition (par exemple avec une feuille XSL front de split) et il faut leur associer leurs métadonnées par le biais d'un fichier '​metadata.csv'​.   * B) les articles sont séparés par fichier et ont chacun leur édition (par exemple avec une feuille XSL front de split) et il faut leur associer leurs métadonnées par le biais d'un fichier '​metadata.csv'​.
  
-Vu le nombre d'​articles,​ il semble plus simple dans un premier temps de laisser les articles encodés par une structure interne A).+**Hypothèse 1)** Vu le nombre d'​articles,​ il semble plus simple dans un premier temps de laisser les articles encodés par une structure interne ​et donc de laisser la source sous le forme d'un seul texte A).
  
 ==== Choix des métadonnées ==== ==== Choix des métadonnées ====
  
 Des métadonnées d'​articles semblent encodées au sein du Word avec des entrées d'​index. Des métadonnées d'​articles semblent encodées au sein du Word avec des entrées d'​index.
 +
 +Il faut trouver un moyen de transférer ces informations dans des propriétés des structures '​article'​ au sein du XML TEI.
 +
 +**Hypothèse 2)** Si ces informations ont été transférées par Diple, une XSL front peut faire ce travail.
 +
 +==== Réglage du hors-texte ====
 +
 +Les articles semblent précédés par du texte à ne pas indexer mais à présenter dans les éditions HTML.
 +
 +**Hypothèse 3)** Si ces informations sont clairement délimitées dans le XML TEI, le paramètre '​ignoredElements'​ du [[http://​txm.sourceforge.net/​doc/​manual/​manual63.xhtml#​toc209 | module XML/w+CSV]] peut permettre sa gestion en '​hors-texte à éditer'​.
 +
 +\\ 
 +
 +----
 +-> [[:|Retour à la liste des projets]].
 +
public/labex_obvil.1444138430.txt.gz · Dernière modification: 2015/10/06 15:33 par slh@ens-lyon.fr