Liste de liens :
Liste de liens :
Cette page décrit comment créer un corpus de mails dans TXM à partir d'une archive de mails créée par les serveurs de liste comme Mailman ou Sympa ou par les clients de mail comme Thunderbird.
Deux technologies peuvent être utilisées :
L'idée est de produire au plus vite une version XML-TEI(-TXM pour les métadonnées) des mails.
Il faut décider du format de transformation des corps de mail qui ne sont pas en texte brut :
Les documents attachés peuvent être ignorés dans un premier temps. Puis :
Ce module d'import importe un fichier d'archive de mails dans un premier temps. Puis peut fusionner plusieurs fichiers d'archive pour les importer d'un coup.
Il serait intéressant de pouvoir mettre en 'texte commentaire' les parties de mail reprises dans un mail (typiquement les lignes commençant par '> ' en texte brut) de sorte à ce qu'un mail ne contienne que du texte original (au sens 'chercher' et 'compter').
Une variante sur la construction des unités textuelles peut associer un texte TXM à un mois ou une année etc. d'une archive en créant des structures internes pour les messages. Un texte TXM peut aussi être associé à un thread.
Les métadonnées de textes peuvent être le résultat de traitements entre plusieurs mails (pour faciliter la construction d'un sous-corpus correspondant à un thread par exemple).
Pour être validé, ce module d'import doit avoir importé avec succès :