TXM peut traiter de nombreux formats de corpus textuels.
Ces formats sont souvent transformables les uns dans les autres.
TXM inclut petit à petit de plus en plus d'outils de conversion entre formats de fichiers et de manipulation de sources pour faciliter et accélérer le travail de préparation des sources pour l'import dans TXM.
Les logiciels d'OCR (Optical Character Recognition) analysent les images de textes pour en obtenir le texte sous forme de caractères. Ils permettent souvent de sauvegarder leur résultat en format traitement de texte.
Les images de facsimilés de textes peuvent être au format '.TIFF' ou '.JPG' mais également au sein de fichiers '.PDF'.
Le format PDF a été défini par l'entreprise Adobe.
Il se décline en différent formats :
Les fichiers PDF ayant des pages de texte peuvent s'enregister au format '.TXT'.
Les fichiers PDF ayant des images de pages peuvent être analysés par des logiciels d'OCR.
Les traitements de texte sont souvent utilisés pour saisir les transcriptions de texte, notamment parce qu'ils offrent des services de correction orthographique.
Avec le logiciel Microsoft Word, on édite des fichiers au format '.DOC'.
Avec le logiciel LibreOffice Writer, on édite des fichiers au format '.ODT'.
Ils permettent également de sauvegarder les fichiers au format XML, selon un schéma XML qui leur est propre.
Il existe des outils de conversion de fichiers '.ODT' vers XML-TEI ou HTML.
Les traitements de texte permettent de sauvegarder les fichiers au format texte brut (.TXT).
TXM comprend une macro appelée 'XXX' qui permet de réaliser des conversions par lot de fichiers au format .ODT, .RTF, .DOC, etc. vers le format TXT.
Le texte brut est le format textuel le plus simple : il s'agit d'une suite de caractères.
Des sauts de lignes peuvent aérer ou mettre en forme un peu le texte.
Les caractères y suivent une convention d'encodage, par exemple 'windows-cp1252' quand on est sous Windows ou 'UTF-8' quand on est sous Linux.
Pour l'import de sources, TXM considère par défaut que les textes sont encodés en 'UTF-8'. Nous recommandons donc de faire converger toutes les sources textuelles vers cet encodage pour un traitement avec TXM.
TXM comprend une macro appelée 'XXX' qui permet de réaliser des conversions par lot d'encodages de caractères de plusieurs fichiers au format TXT.
TXM comprend une macro élémentaire appelée 'XXX' qui permet de réaliser des conversions par lot de fichiers au format .TXT vers le format .XML :
Les fichiers structurés au format XML obéissent aux régles syntaxiques d'XML :