Conventions de transcription synchronisée au format "texte brut" (document RTF ou Libre Office ODT ou Microsoft Word) pour l'import automatique dans TXM

Ces conventions sont adaptées pour la saisie de transcriptions avec le logiciel Transana, mais elles peuvent également servir à transcrire directement dans LibreOffice Writer ou Microsoft Word. La stratégie d'import dans TXM consiste à transformer automatiquement la transcription vers le format XML Transcriber avec l'aide d'un script Groovy puis à appliquer le module d'import Transcriber+CSV dessus. Les règles du module d'import Transcriber+CSV de TXM s'appliquent donc également à ce type de transcriptions. Par exemple, l'importation est réalisée à partir d'un lot de plusieurs transcriptions rassemblées dans un même répertoire.

1- Conventions de transcriptions nécessaires pour l’exécution du script 'RunTransformation'

  1. tours de parole : un tour de parole commence par un début de ligne avec le code du locuteur, suivi d'un caractère <Tabulation> puis de la transcription du tour. L'identifiant du locuteur est transformé systématiquement en majuscules pour uniformiser les identifiants ;
    pour vérifier qu’il y a bien une tabulation entre le locuteur et la transcription de l’énoncé sous word : transformer le texte de la transcription en tableau et vérifier que l’on n’obtient que deux colonnes : la première colonne n’a que le nom du locuteur (il peut y avoir entre parenthèse à qui il s’adresse ou autre) et la deuxième ce qu’il dit ou fait. On peut également faire la recherche ‘^t^t’ dans le module de recherche word pour trouver 2 tabulations qui se suivent, les remplacer alors par une seule ‘^t’
  2. marques de synchronisation : la transcription peut contenir des marques de synchronisation sous la forme ”(h:mm:ss.M)” - par exemple ”(0:00:48.5)” soit à 48 secondes et demi du début de l'enregistrement. Il est recommandé de mettre ces marques de synchronisation en fin de tour de parole ou en cours de tour (éviter le début de tour). TXM essaye d'approximer le temps de début et de fin de chaque tour de parole en cas de présence de marques de synchronisation dans la transcription. Attention le premier timing doit être noté (00:00:00.0), tout ce qui se situe avant ce premier timing est considéré comme préambule (voir point suivant). Pensez aussi à mettre un timing final à la fin du dernier tour ;
  3. préambule de la transcription : tout ce qui précède la première marque de synchronisation ne fait pas partie de la transcription, mais est affiché en préambule de l'édition de la transcription ;
  4. commentaires : les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils soient en italique n'est pas différencié ; mettre entre parenthèse tout ce qui n’est pas de la parole
  5. ponctuations : la ponctuation ne fait pas partie de la transcription (elle n'est pas indexée dans le lexique des unités lexicales) mais est restituée dans les pages d'édition pour assister sa lecture ;
  6. bien vérifier l’orthographe

2- Conventions spécifiques à ICAR2

  1. sections thématiques : des sections peuvent être encodées par une balise. [theme=“mon_theme” organisation=“mon_organisation”]
    sans accent, en remplaçant les espaces par des underscores _ et entre guillemets anglaises ” ”
    On utilise l'espace entre les deux paramètres theme et organisation. Une nouvelle balise ferme la balise qui la précède.
    Si toutefois il y a une section qui n'a pas de thème ou d'organisation, mettre “none” à la place du nom du thème ou organisation ce qui sera reproduit dans les catégories « div » de TXM.
    il ne doit rien avoir d'autre que la balise dans sa ligne (pas de commentaire ni timing)


Organisation : (nommer les catégories en anglais)
- Class (classe entière)
- Group (travail en petits groupes)
- Mixed (travail en petits groupes avec des interruptions/interventions PLENIERES de la prof, qui concernent toute la classe)
- Individual (travail individuel, chaque élève travaille sur sa propre tâche)
- Monitoring Group (travail en groupes AVEC interventions spécifiques de l’enseignant auprès du groupe concerné, filmé)
- Monitoring Individual (travail individuel AVEC interventions spécifiques de l’enseignant auprès de l’élève concerné, filmé)

  1. nom de fichier transcription. Afin de pouvoir réaliser des analyses chronologiques dans TXM, noter un numéro deux chiffres avant le nom de la transcription. Par exemple « P1 S01 10092010 » devient « 01 P1 S01 10092010 »

3- Exportation du rtf depuis Transana

Tout d’abord, exporter la transcription dans le logiciel Transana vers le format rtf avec les valeurs temporelles visibles mais sans les codes temps.
Fichier→ sauvegarder le fichier sous→ choisir rtf puis valider ‘non’ dans sauvegarder les codes temps

4- Retours utilisateurs

dans cette section, ajouter les commentaires, rapport de bugs concernant les conventions

public/import_de_transcriptions_en_texte_brut.txt · Dernière modification: 2013/07/17 12:18 par justine.lascar@gmail.com