Environnement de préparation des sources

TXM peut traiter de nombreux formats de corpus textuels.

Ces formats sont souvent transformables les uns dans les autres.

TXM inclut petit à petit de plus en plus d'outils de conversion entre formats de fichiers et de manipulation de sources pour faciliter et accélérer le travail de préparation des sources pour l'import dans TXM.

Logiciels d'OCR

Les logiciels d'OCR (Optical Character Recognition) analysent les images de textes pour en obtenir le texte sous forme de caractères. Ils permettent souvent de sauvegarder leur résultat en format traitement de texte.

Les images de facsimilés de textes peuvent être au format '.TIFF' ou '.JPG' mais également au sein de fichiers '.PDF'.

Liste de logiciels existants

Fichiers PDF

Le format PDF a été défini par l'entreprise Adobe.

Il se décline en différent formats :

  • des formats en pages de texte
  • des formats en images de pages
  • des formats combinant images et texte de pages

Les fichiers PDF ayant des pages de texte peuvent s'enregister au format '.TXT'.

Les fichiers PDF ayant des images de pages peuvent être analysés par des logiciels d'OCR.

Traitements de texte (Microsoft Word, LibreOffice Writer)

Les traitements de texte sont souvent utilisés pour saisir les transcriptions de texte, notamment parce qu'ils offrent des services de correction orthographique.

Avec le logiciel Microsoft Word, on édite des fichiers au format '.DOC'.

Avec le logiciel LibreOffice Writer, on édite des fichiers au format '.ODT'.

Ils permettent également de sauvegarder les fichiers au format XML, selon un schéma XML qui leur est propre.

Il existe des outils de conversion de fichiers '.ODT' vers XML-TEI ou HTML.

Les traitements de texte permettent de sauvegarder les fichiers au format texte brut (.TXT).

TXM comprend une macro appelée 'XXX' qui permet de réaliser des conversions par lot de fichiers au format .ODT, .RTF, .DOC, etc. vers le format TXT.

Texte brut (TXT)

Le texte brut est le format textuel le plus simple : il s'agit d'une suite de caractères.

Des sauts de lignes peuvent aérer ou mettre en forme un peu le texte.

Les caractères y suivent une convention d'encodage, par exemple 'windows-cp1252' quand on est sous Windows ou 'UTF-8' quand on est sous Linux.

Pour l'import de sources, TXM considère par défaut que les textes sont encodés en 'UTF-8'. Nous recommandons donc de faire converger toutes les sources textuelles vers cet encodage pour un traitement avec TXM.

TXM comprend une macro appelée 'XXX' qui permet de réaliser des conversions par lot d'encodages de caractères de plusieurs fichiers au format TXT.

TXM comprend une macro élémentaire appelée 'XXX' qui permet de réaliser des conversions par lot de fichiers au format .TXT vers le format .XML :

  • elle s'occupe de la présence des caractères '<' et '&'
  • enveloppe le texte d'une balise d'ensemble
  • elle change l'extension des fichiers en '.XML'

Texte structuré (XML)

Les fichiers structurés au format XML obéissent aux régles syntaxiques d'XML :

  • une balise engloble l'ensemble du texte, par exemple '<DOC>…</DOC>'
  • tout caractère '&' d'origine doit être représenté par la chaine '&amp;' (pour 'amp[persand]', le nom standard Unicode du caractère '&')
  • tout caractère '<' d'origine doit être représenté par la chaine '&lt;' (pour 'l[ower ]t[han]', le nom standard Unicode du caractère '<')
  • ils ont une extension .XML
public/environnement_preparation_des_sources.txt · Dernière modification: 2015/03/04 16:21 par matthieu.decorde@ens-lyon.fr