Cette page sert au suivi des projets du Labex Obvil mobilisant TXM.

Dans la mesure où cette page est actuellement publique, il est recommandé de veiller à maintenir un niveau d'anonymat raisonnable. (merci de nous contacter si cette page doit évoluer vers plus de confidentialité)

Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.

Imaginaire de la guerre 14

Descriptif du projet

Projet suivi avec SM à la suite de l'atelier de formation TXM du 22/09/2015 : définir un imaginaire de la guerre 14 en se basant sur un corpus de presse d'Apollinaire.

Parmi les hypothèses de base, un jeu de métadonnées qualifiant chaque article peut servir à contraster leur contenu ou à le situer dans les outils documentaires (eg références de concordances précises).

Importation du corpus dans TXM

Choix de l'unité documentaire

Le corpus d'articles est composé d'un seul fichier encodé en TEI P5 issu de la conversion d'un document Word stylé avec la chaîne odt2tei.

En termes d'unité documentaire (portant les métadonnées), soit :

  • A) les articles sont encodés par une structure interne d'origine, par exemple de nom 'article', et il n'y a qu'une édition d'un seul texte (correspondant à la totalité du corpus)
  • B) les articles sont séparés par fichier et ont chacun leur édition (par exemple avec une feuille XSL front de split) et il faut leur associer leurs métadonnées par le biais d'un fichier 'metadata.csv'.

Hypothèse 1) Vu le nombre d'articles, il semble plus simple dans un premier temps de laisser les articles encodés par une structure interne et donc de laisser la source sous le forme d'un seul texte A).

Choix des métadonnées

Des métadonnées d'articles semblent encodées au sein du Word avec des entrées d'index.

Il faut trouver un moyen de transférer ces informations dans des propriétés des structures 'article' au sein du XML TEI.

Hypothèse 2) Si ces informations ont été transférées par Diple, une XSL front peut faire ce travail.

Réglage du hors-texte

Les articles semblent précédés par du texte à ne pas indexer mais à présenter dans les éditions HTML.

Hypothèse 3) Si ces informations sont clairement délimitées dans le XML TEI, le paramètre 'ignoredElements' du module XML/w+CSV peut permettre sa gestion en 'hors-texte à éditer'.



Retour à la liste des projets.

public/labex_obvil.txt · Dernière modification: 2015/10/12 18:53 par Frederic.Glorieux@paris-sorbonne.fr