Outils pour utilisateurs

Outils du site


public:macros:vocapia2transcriber

Table des matières

Macro Vocapia2Transcriber

Transforme un fichier ou un répertoire de fichiers XML Vocapia en fichiers XML Trancriber pour l'import XML-TRS de TXM.

La transformation est assez directe sauf pour :

  • les mots :
    • les mots sont déjà tokenisés mais il reste les élisions et ponctuations collés aux mots
    • il n'existent pas dans le XML-TRS, mais TXM accepte leur présence
      • et donc les propriétés temporelles “stime” et “etime” de temps aussi
    • les mots doivent être trimmés
  • les annotations “*” en début ou fin de mot qui codent l'intervention d'un autre locuteur dans un tour de parole
  • Les fichiers Vocapia n'ont pas de section comme Transcriber

Solution

V1

  • Les élisions et ponctuations des mots sont conservés
  • les interverntions “*” sont codés dans la propriété de mot “@other=true”
  • les tours vident seront traités par le module d'import
  • les entités sont automatiquement converties en caractères unicode
  • l'encodage des fichiers résultats est UTF-8
public/macros/vocapia2transcriber.txt · Dernière modification: 2021/01/12 11:21 par matthieu.decorde@ens-lyon.fr