Outils pour utilisateurs

Outils du site


Panneau latéral

public:email_archive_import_module_spec

Spécification du module d'import de boite mail

Cette page décrit comment créer un corpus de mails dans TXM à partir d'une archive de mails créée par les serveurs de liste comme Mailman ou Sympa ou par les clients de mail comme Thunderbird.

Objectif

  • lire une archive de mails
  • créer un texte par mail
    • créer les métadonnées de texte à partir des lignes MIME de chaque mail (auteur, sujet, date…)
    • mettre le contenu du mail dans le corps du texte

Description

Deux technologies peuvent être utilisées :

L'idée est de produire au plus vite une version XML-TEI(-TXM pour les métadonnées) des mails.

Il faut décider du format de transformation des corps de mail qui ne sont pas en texte brut :

  • texte brut → texte brut
  • (X)HTML → texte brut ou XML

Les documents attachés peuvent être ignorés dans un premier temps. Puis :

  • soit associés à l'édition HTML comme des images par exemple ;
  • soit inclus en tant que texte (si de format textuel : ODT. .doc, etc.) dans le corps du mail/texte

Ce module d'import importe un fichier d'archive de mails dans un premier temps. Puis peut fusionner plusieurs fichiers d'archive pour les importer d'un coup.

Il serait intéressant de pouvoir mettre en 'texte commentaire' les parties de mail reprises dans un mail (typiquement les lignes commençant par '> ' en texte brut) de sorte à ce qu'un mail ne contienne que du texte original (au sens 'chercher' et 'compter').

Une variante sur la construction des unités textuelles peut associer un texte TXM à un mois ou une année etc. d'une archive en créant des structures internes pour les messages. Un texte TXM peut aussi être associé à un thread.

Les métadonnées de textes peuvent être le résultat de traitements entre plusieurs mails (pour faciliter la construction d'un sous-corpus correspondant à un thread par exemple).

Recette

Pour être validé, ce module d'import doit avoir importé avec succès :

  • tous les mails d'une archive issue de sympa ou mailman : par exemple l'archive du mois de Juillet 2013 de la liste de discussion 'txm-users', voire toutes les archives mensuelles d'un coup ;
  • tous les mails d'une boite mail de Thunderbird : par exemple le 'Courrier entrant' d'un Thunderbird, voire tous les dossiers locaux d'un compte de Thunderbird.
public/email_archive_import_module_spec.txt · Dernière modification: 2013/08/23 15:52 par slh@ens-lyon.fr