Outils pour utilisateurs

Outils du site


public:import_de_transcriptions_en_texte_brut

Ceci est une ancienne révision du document !


Conventions de transcription d'enregistrements audiovisuels en "texte brut" (document RTF ou Odt ou Word) pour l'import automatique dans TXM

Ces conventions sont adaptées pour la saisie de transcriptions avec le logiciel Transana, mais elles peuvent également servir à transcrire directement dans LibreOffice-Writer ou Word. La stratégie d'import dans TXM consiste à transformer automatiquement la transcription vers le format XML Transcriber puis à appliquer le Transcriber+CSV dessus. Les règles du module d'importation TRS+CSV de TXM s'appliquent donc également à ce type de transcriptions. Par exemple, l'importation est réalisée à partir d'un lot de plusieurs transcriptions rassemblées dans un même répertoire.

  1. tours de parole : un tour de parole commence par un début de ligne avec le code du locuteur, suivi d'un caractère <Tabulation> puis de la transcription du tour. L'identifiant du locuteur est transformé systématiquement en majuscules pour uniformiser les identifiants ;
  2. marques de synchronisation : la transcription peut contenir des marques de synchronisation à n'importe quel endroit, de la forme “(h:mm:ss.M)” - par exemple “(0:00:48.5)” soit à 48 secondes et demi du début de l'enregistrement. TXM essaye d'approximer le temps de

début et de fin de chaque tour de parole en cas de présence de marques de synchronisation dans la transcription (voir également la convention pour le préambule) ;

  1. préambule de la transcription : tout ce qui précède la première marque de synchronisation ne fait pas partie de la transcription, mais est affiché en préambule de l'édition de la transcription ;
  2. commentaires : les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils soient en italique n'est pas différencié ;
  3. ponctuations : la ponctuation ne fait pas partie de la transcription (elle n'est pas indexée dans le lexique des unités lexicales) mais est restituée dans les pages d'édition pour assister sa lecture ;
  4. sections thématiques : des sections peuvent être encodées par une ligne de début de section transcrivant leur titre et dont la couleur de police définit le type. Il existe les types prédéfinis suivants : thème, sous-thème, organisation, note et jeu :
    1. “#FF0000”:“comment”, (rouge)
    2. “#8E6B23”:“comment”, (marron)
    3. “#FF0080”: “orga”, (rose)
    4. “#008000”:“theme”, (vert)
    5. “#8080FF”:“subtheme”, (bleu clair)
    6. “#000080”:“jeu” (bleu)
      Remarque : seules les limites de thèmes sont transformées en limites de sections. Les autres lignes de couleur ne sont pas interprétées tout en étant restituées dans l'édition ;
  5. tout ce qui ne rentre pas dans les règles énoncés ci-dessus est mentionné dans un fichier rapport.
public/import_de_transcriptions_en_texte_brut.1365702304.txt.gz · Dernière modification: 2013/04/11 19:45 par slh@ens-lyon.fr