Outils pour utilisateurs

Outils du site


public:import_de_transcriptions_en_texte_brut

Ceci est une ancienne révision du document !


Conventions de transcription synchronisée au format "texte brut" (document RTF ou Libre Office ODT ou Microsoft Word) pour l'import automatique dans TXM

Ces conventions sont adaptées pour la saisie de transcriptions avec le logiciel Transana, mais elles peuvent également servir à transcrire directement dans LibreOffice Writer ou Microsoft Word. La stratégie d'import dans TXM consiste à transformer automatiquement la transcription vers le format XML Transcriber avec l'aide d'un script Groovy puis à appliquer le module d'import Transcriber+CSV dessus. Les règles du module d'import Transcriber+CSV de TXM s'appliquent donc également à ce type de transcriptions. Par exemple, l'importation est réalisée à partir d'un lot de plusieurs transcriptions rassemblées dans un même répertoire.

  1. tours de parole : un tour de parole commence par un début de ligne avec le code du locuteur, suivi d'un caractère <Tabulation> puis de la transcription du tour. L'identifiant du locuteur est transformé systématiquement en majuscules pour uniformiser les identifiants ;

pour vérifier qu’il y a bien une tabulation entre le locuteur et la transcription de l’énoncé sous word : transformer le texte de la transcription en tableau et vérifier que l’on n’obtient que deux colonnes : la première colonne n’a que le nom du locuteur (il peut y avoir entre parenthèse à qui il s’adresse ou autre) et la deuxième ce qu’il dit ou fait. On peut également faire la recherche ‘^t^t’ dans le module de recherche word pour trouver 2 tabulations qui se suivent, les remplacer alors par une seule ‘^t’ - marques de synchronisation : la transcription peut contenir des marques de synchronisation sous la forme ”(h:mm:ss.M)” - par exemple ”(0:00:48.5)” soit à 48 secondes et demi du début de l'enregistrement. Il est recommandé de mettre ces marques de synchronisation en fin de tour de parole ou en cours de tour (éviter le début de tour). TXM essaye d'approximer le temps de début et de fin de chaque tour de parole en cas de présence de marques de synchronisation dans la transcription. Attention le premier timing doit être noté (00:00:00.0), tout ce qui se situe avant ce premier timing est considéré comme préambule (voir point suivant). Pensez aussi à mettre un timing final à la fin du dernier tour ;

  1. préambule de la transcription : tout ce qui précède la première marque de synchronisation ne fait pas partie de la transcription, mais est affiché en préambule de l'édition de la transcription ;
  2. commentaires : les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils soient en italique n'est pas différencié ; mettre entre parenthèse tout ce qui n’est pas de la parole
  3. ponctuations : la ponctuation ne fait pas partie de la transcription (elle n'est pas indexée dans le lexique des unités lexicales) mais est restituée dans les pages d'édition pour assister sa lecture ;
  4. bien vérifier l’orthographe
public/import_de_transcriptions_en_texte_brut.1374051608.txt.gz · Dernière modification: 2013/07/17 11:00 par justine.lascar@gmail.com