Tutoriel d'import de transcriptions dans TXM

Prérequis

Installer Libre Office si on souhaite réaliser des conversions de transcriptions à partir des formats .doc, .odt ou .rtf.

Introduction

TXM peut analyser des corpus de transcriptions d'enregistrements correspondant au modèle de transcriptions du logiciel Transcriber.

Les transcriptions (d'entretiens, de cours, de conversations, de débats télévisés…) gérées par TXM se distinguent des textes écrits par les qualités suivantes :

  • elles contiennent des tours de paroles auxquels sont associés un locuteur (ou plusieurs en cas de paroles simultanées)
  • elles peuvent comprendre des marques de synchronisation (temps écoulé depuis le début de l'enregistrement audio ou vidéo) au début, en cours et à la fin des tours de paroles
  • elles peuvent comprendre des commentaires (hors discours transcrit)
  • les transcriptions peuvent être organisées en sections ayant un titre
  • etc. (voir les conventions de transcription ci-dessous pour le détail)

Une transcription étant un texte potentiellement synchronisé avec une vidéo ou un fichier audio, on peut jouer des passages spécifiques de ces vidéos ou de ces fichiers audio directement depuis TXM à partir de la concordance d'un mot par exemple.

Formats de transcriptions traités

TXM peut importer directement les transcriptions au format .trs (format basé sur XML issu du logiciel Transcriber) ou bien aider à convertir au préalable des transcriptions saisies en .doc ou .odt ou .rtf ou bien en .txt pour une importation finale au format .trs.

La chaîne complète de conversion et d'importation de transcriptions permet les conversions suivantes : (A. .doc ou .odt ou .rtf) → (B. .txt) → (C. .trs) → TXM.

C'est-à-dire que les transcriptions peuvent être saisies :

  • A) soit dans LibreOffice Writer (ou MS Word) pour les formats .doc ou .odt ou .rtf
  • B) soit dans un éditeur de texte (éditeur de texte interne de TXM, Notepad - Windows, Textedit - Mac, GEdit - Linux) pour le format .txt
  • C) soit avec Transcriber pour le format .trs

Pour ensuite être importées dans TXM par le biais du format .trs.

Que ce soit en .doc, .odt, .rtf ou .txt, les transcriptions doivent suivre les conventions définies à l'annexe CONVENTIONS DE TRANSCRIPTION de ce tutoriel.

Conversion des formats intermédiaires vers le format .trs

Une fois saisies (au format .ODT ou .DOC ou .RTF ou .TXT, les transcriptions doivent être regroupées dans un répertoire de sources, nommé par exemple TRANS.

On lance alors la conversion avec la macro TextTranscription2TRS :

  • ouvrir la vue 'Affichage / Vues / Macro'
  • si nécessaire rafraichir la vue
  • double-cliquer sur la macro 'transcription / TextTranscription2TRS'
  • indiquer le répertoire TRANS pour le paramètre 'odtDir'
  • lancer l'exécution
  • les fichiers .trs résultants sont déposés dans le sous-répertoire 'out'

Organisation finale du répertoire source pour l'import dans TXM

Réunir les fichiers de transcription au format .trs dans un répertoire de sources.

Ajouter le fichier trans-14.dtd (fichier annexe nécessaire à l'importation dans TXM).

L'importation se fait alors avec le module 'Fichier / Importer / XML Transcriber+CSV' :

  • indiquer le répertoire de sources
  • lancer l'import

CONVENTIONS DE TRANSCRIPTION

Ces conventions sont compatibles avec le modèle de transcriptions du logiciel Transcriber.

Vous trouverez un exemple de transcription de cours de physique suivant ces conventions dans le site de ressources pour TXM : https://sourceforge.net/projects/txm/files/corpora/p1s8-course-transcription. Cette transcription est fournie dans tous les formats .doc, .odt, .rtf et .trs pour que vous puissiez expérimenter la chaîne d'import de transcriptions dans TXM à partir de n'importe quel format. Elle est accompagnée de l'enregistrement correspondant en format vidéo et audio (anonymisée : seules quelques minutes sont visibles ou audibles).

Structure générale d'une transcription

Toute transcription est composée successivement :

  • A) d'un préambule contenant n'importe quel texte introductif à la transcription : il doit contenir au moins une ligne vide (un saut de ligne ou des espaces ' ' ou autres caractères '****')
  • B) la première marque de synchronisation de début d'enregistrement1) (même si on ne souhaite pas mettre de marques de synchronisation dans la transcription). Par exemple « (00:00:00.0) » si la transcription commence dès le début de l'enregistrement.
  • C) le corps de la transcription constitué de limites de sections et de tours de parole
  • D) la dernière marque de synchronisation de fin d'enregistrement2). Par exemple « (01:00:00.0) » pour un cours ou un entretien qui a duré une heure.

Exemple :

Préambule à la transcription du fichier ENR1.mp3.
(00:00:00.0)
ENQ	Que pensez vous de X ?
REP	Que du bien.
(01:00:00.0)

Préambule de la transcription

Tout ce qui précède la première marque de synchronisation ne fait pas partie du corps de la transcription, mais est affiché en préambule dans la première page de l'édition de la transcription. Cette partie n'a pas à suivre les règles du corps de la transcription (sections, tours de parole, etc.) et ne fera pas partie de la transcription. On peut donc y mettre n'importe quel texte (texte introductif, métadonnées sur les locuteurs ou la situation, informations de durée, conditions, etc.).

Tours de parole

La saisie d'un tour de parole commence par un code de locuteur en début de ligne, immédiatement suivi d'un caractère <Tabulation> (touche « →| » puis de la transcription de l’énoncé. L'identifiant du locuteur est systématiquement passé en majuscules pour uniformiser tous les identifiants.

Astuces : Pour vérifier que les tabulations entre les codes de locuteur et les transcriptions d’énoncés sont bien placées dans Writer/Word : vous pouvez transformer le texte de la transcription en tableau (sélectionner le texte des tours de parole et utiliser la commande 'Tableau > Convertir > Texte en tableau') et vérifier que l’on obtient bien que deux colonnes :

  • la première colonne ne contient que des codes de locuteurs (avec éventuellement des adresses ou autre entre parenthèses)
  • la deuxième colonne ne contient que ce qui est dit ou fait.

On peut également faire la recherche de tabulations doublées : ‘\t\t’ dans le module de recherche de Writer (‘^t^t’ dans le module de recherche deWord) pour trouver 2 tabulations qui se suivent, les remplacer alors par une seule '\t' dans Writer (ou ‘^t’ dans Word).

Marques de synchronisation

La transcription peut contenir des marques de synchronisation sous la forme « (hh:mm:ss.M) ». Par exemple ”(0:00:48.5)”, soit à 48 secondes et demi du début de l'enregistrement. Il faut placer ces marques au sein des tours de paroles. Une bonne pratique est de les placer soit en début soit en fin de tour.

TXM affectera un temps de début et de fin à chaque tour de parole, éventuellement en approximant en cas de manque de certaines marques de synchronisation dans la transcription.

Si vous ne mettez que les deux marques de synchronisation de début et de fin d'enregistrement dans votre transcription, la macro de transformation calculera de façon approximative les marques de synchronisation de chaque début de tour (elle utilisera le nombre total de tours pour la répartition, pas le nombre de mots de chaque tour).

Commentaires

Les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils soient dans un certain style, par exemple en italiques, n'est pas différencié ; Une bonne pratique consiste à mettre entre parenthèses tout ce qui n’est pas de la parole.

Sections

La transcription peut être divisée en sections, caractérisées par des propriétés. Une section commence par une ligne au format suivant : [propriété1=“une valeur” propriété2=“une autre valeur”] «propriété1» et «propriété2» sont des noms de propriétés de la section qui prennent pour valeur « une valeur » et « une autre valeur » jusqu'à la prochaine section.

Les lignes de début de section doivent respecter les règles suivantes :

  • Le nom d'une propriété ne doit pas contenir d'accent ni d'espace ou

de ponctuation. Astuce : on pourra remplacer les espaces par des soulignés (_)

  • La valeur de la propriété doit être entre guillemets anglais ”…”
  • Les propriétés sont séparées par un espace
  • Une nouvelle section ferme la section qui la précède.

Astuce : si jamais une propriété de section n'a pas de valeur à prendre, on peut lui mettre la valeur conventionnelle “none”. Cela sera plus pratique pour traiter l'absence de valeur dans TXM.

Attention : il ne doit rien avoir d'autre dans cette ligne (pas de commentaire ni de marque de synchronisation)

Ponctuations

La ponctuation de la transcription est ignorée (elle n'est pas indexée dans le lexique des unités lexicales) mais est restituée dans les pages d'édition pour faciliter sa lecture.

Autre tutoriel de conversion et d'import de transcriptions (plus ancien)

Alternativement, vous pouvez télécharger le document Tutoriel import de transcriptions entretiens TXT-ODT-RTF-DOC dans TXM.pdf sur le site de TXM et suivre ses instructions.

1) , 2) voir la section 'Marques de synchronisation' pour la syntaxe exacte
public/tutoriel_import_transcriptions.txt · Dernière modification: 2017/06/09 18:30 par slh@ens-lyon.fr