Outils pour utilisateurs

Outils du site


public:import_de_transcriptions_en_texte_brut

Ceci est une ancienne révision du document !


Conventions de transcription d'enregistrements sonores en "texte brut" (document rtf-Word-odt) pour l'import automatique dans TXM

Ces conventions sont adaptées pour la saisie de transcriptions avec le logiciel Transana.

  1. tours de parole : un tour de parole commence par un début de ligne avec le code du locuteur, suivi d'un caractère <Tabulation> puis de la transcription du tour. L'identifiant du locuteur est transformé systématiquement en majuscules pour uniformiser les identifiants ;
  2. marques de synchronisation : la transcription peut contenir des marques de synchronisation à n'importe quel endroit, de la forme “(h:mm:ss.M)” - par exemple “(0:00:48.5)”. TXM essaye d'approximer le temps de début et de fin de chaque tour de parole en cas de présence de marques de synchronisation dans la transcription ;
  3. début de la transcription : tout ce qui précède la première marque de synchronisation ne fait pas partie de la transcription, mais est affiché en préambule de l'édition de la transcription ;
  4. commentaires : les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils soient en italique n'est pas différencié ;
  5. ponctuations : la ponctuation ne fait pas partie de la transcription (elle n'est pas indexée dans le lexique des unités lexicales) mais est restituée dans les pages d'édition pour assister sa lecture ;
  6. sections thématiques : des sections peuvent être encodées par une ligne de début de section transcrivant leur titre et dont la couleur de fond défini le type. Il existe les types prédéfinis suivants : thème, sous-thème, organisation, note et jeu :
    1. “#FF0000”:“comment”, (rouge)
    2. “#8E6B23”:“comment”, (marron)
    3. “#FF0080”: “orga”, (rose)
    4. “#008000”:“theme”, (vert)
    5. “#8080FF”:“subtheme”, (bleu clair)
    6. “#000080”:“jeu” (bleu)
      Remarque : seules les limites de thèmes sont transformées en limites de sections. Les autres lignes de couleur ne sont pas interprétées tout en étant restituées dans l'édition ;
  7. tout ce qui ne rentre pas dans les règles énoncés ci-dessus est mentionné dans un fichier rapport.
public/import_de_transcriptions_en_texte_brut.1365532125.txt.gz · Dernière modification: 2013/04/09 20:28 par slh@ens-lyon.fr