Cette page sert au suivi des projets de l'UMR Triangle mobilisant TXM.

Dans la mesure où cette page est actuellement publique, il est recommandé de veiller à maintenir un niveau d'anonymat raisonnable. (merci de nous contacter si cette page doit évoluer vers plus de confidentialité)

Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.

Analyse d'un corpus d'articles et de lettres de Mussolini

Descriptif du projet

Dans le cadre d'un doctorat (UMR 5206), il s'agit d'analyser un corpus d'articles et de lettres de Mussolini, écrits en italien contemporain.

Les sources sont organisées par fichiers de volume d'articles. Les fichiers sont encodés en XML :

  • un élément <text> délimite le volume (du début à la fin du fichier)
  • un élément <front> délimite le sommaire automatique et tout texte liminaire précédant les articles et les lettres eux-mêmes
  • un élément <article> délimite les lettres
  • chaque élément <article> est qualifié par des attributs :
    • titre
    • date
    • annee
    • mois
    • journal

Importation du corpus dans TXM

Les sources sont éditées en LibreOffice/Writer et enregistrées en .ODT.

Les fichiers ODT contiennent donc des balises XML. Il faut faire attention à bien remplacer tous les caractères '&' puis '<' par resp. '&amp;' puis '&lt;' avant d'introduire la première balise.

Pour produire les fichiers XML nécessaires pour l'import dans TXM, il faut enregistrer le fichier ODT sous 'Texte codé' et lui donner l'extension '.xml'.

Remarques :

  • il est conseillé d'éditer des fichiers XML plutôt avec le logiciel Oxygen ou un éditeur de texte connaissant la syntaxe XML car ces logiciels offrent plus d'assistance pour cela. Mais il est possible d'éditer les fichiers avec Writer ou Word
  • la conversion ODT→TXT manuelle peut se réaliser par lot (de plusieurs fichiers à la fois) en utilisant la macro Text2TXT

Une fois les fichiers .xml produits :

  • il faut les regrouper dans un répertoire source
  • puis lancer le module d'import XML/w+CSV
    • choisir la langue IT pour lemmatiser
    • choisir une XSL pour filtrer les éléments '<front>' ou '<note>'

Une fois dans TXM, le nouveau corpus doit contenir le bon nombre de structures 'article'.

On peut vérifier le nombre d'articles par volume en procédant par sous-corpus de volume en utilisant la structure '<text>' et sa propriété 'id'.



Retour à la liste des projets.

public/umr_triangle_doctorat_mussolini.txt · Dernière modification: 2015/10/07 11:40 par slh@ens-lyon.fr