Outils pour utilisateurs

Outils du site


public:import_de_transcriptions_en_texte_brut

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:import_de_transcriptions_en_texte_brut [2013/04/11 19:14]
slh@ens-lyon.fr
public:import_de_transcriptions_en_texte_brut [2013/07/17 12:18] (Version actuelle)
justine.lascar@gmail.com
Ligne 1: Ligne 1:
-====== Conventions de transcription ​d'​enregistrements sonores en "texte brut" (document ​rtf-Word-odt) pour l'​import automatique dans TXM ======+====== Conventions de transcription ​synchronisée au format ​"texte brut" (document ​RTF ou Libre Office ODT ou Microsoft ​Word) pour l'​import automatique dans TXM ======
  
-Ces conventions sont adaptées pour la saisie de transcriptions avec le logiciel [[http://​www.transana.org|Transana]].+Ces conventions sont adaptées pour la saisie de transcriptions avec le logiciel [[http://​www.transana.org|Transana]], mais elles 
 +peuvent également servir à transcrire directement dans LibreOffice Writer ou Microsoft WordLa stratégie d'​import dans TXM consiste à transformer automatiquement la transcription vers le format XML Transcriber avec l'aide d'un script Groovy puis à appliquer le [[http://​txm.sourceforge.net/​doc/​manual/​manual50.xhtml#​toc172|module d'​import Transcriber+CSV]] dessus. Les règles du module d'​import Transcriber+CSV de TXM s'​appliquent donc également à ce type de transcriptions. Par exemple, l'​importation est réalisée à partir d'un lot de plusieurs transcriptions rassemblées dans un même répertoire. 
 +==== 1- Conventions de transcriptions nécessaires pour l’exécution du script '​RunTransformation'​====
  
-  - **tours de parole** : un tour de parole commence par un début de ligne avec le code du locuteur, suivi d'un caractère <​Tabulation>​ puis de la transcription du tour. L'​identifiant du locuteur est transformé systématiquement en majuscules pour uniformiser les identifiants ; + 
-  - marques de **synchronisation** : la transcription peut contenir des marques de synchronisation ​à n'​importe quel endroit, de la forme "(h:mm:ss.M)" ​- par exemple ​"(0:00:48.5)". TXM essaye d'​approximer le temps de début et de fin de chaque tour de parole en cas de présence de marques de synchronisation dans la transcription ; +   - **tours de parole** : un tour de parole commence par un début de ligne avec le code du locuteur, suivi d'un caractère <​Tabulation>​ puis de la transcription du tour. L'​identifiant du locuteur est transformé systématiquement en majuscules pour uniformiser les identifiants ; \\ pour vérifier qu’il y a bien une tabulation entre le locuteur et la transcription de l’énoncé sous word : transformer le texte de la transcription en tableau et vérifier que l’on n’obtient que deux colonnes : la première colonne n’a que le nom du locuteur (il peut y avoir entre parenthèse à qui il s’adresse ou autre) et la deuxième ce qu’il dit ou fait. On peut également faire la recherche ‘^t^t’ dans le module de recherche word pour trouver 2 tabulations qui se suivent, les remplacer alors par une seule ‘^t’ 
-  - **début** de la transcription : tout ce qui précède la première marque de synchronisation ne fait pas partie de la transcription,​ mais est affiché en préambule de l'​édition de la transcription ; +  - marques de **synchronisation** : la transcription peut contenir des marques de synchronisation ​sous  ​la forme (h:mm:ss.M)” - par exemple ​(0:00:48.5)” soit à 48 secondes et demi du début de l'​enregistrement. Il est recommandé de mettre ces marques de synchronisation en fin de tour de parole ou en cours de tour (éviter le début de tour). TXM essaye d'​approximer le temps de début et de fin de chaque tour de parole en cas de présence de marques de synchronisation dans la transcription. Attention le premier timing doit être noté (00:​00:​00.0),​ tout ce qui se situe avant ce premier timing est considéré comme préambule (voir point suivant). Pensez aussi à mettre un timing final à la fin du dernier tour 
-  - **commentaires** : les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils soient en italique n'est pas différencié ;+  - **préambule** de la transcription : tout ce qui précède la première marque de synchronisation ne fait pas partie de la transcription,​ mais est affiché en préambule de l'​édition de la transcription ; 
 +  - **commentaires** : les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils soient en italique n'est pas différencié ; mettre entre parenthèse tout ce qui n’est pas de la parole
   - **ponctuations** : la ponctuation ne fait pas partie de la transcription (elle n'est pas indexée dans le lexique des unités lexicales) mais est restituée dans les pages d'​édition pour assister sa lecture ;   - **ponctuations** : la ponctuation ne fait pas partie de la transcription (elle n'est pas indexée dans le lexique des unités lexicales) mais est restituée dans les pages d'​édition pour assister sa lecture ;
-  - **sections** thématiques : des sections peuvent être encodées par une ligne de début de section transcrivant leur titre et dont la couleur de police définit le typeIl existe les types prédéfinis suivants : thème, sous-thème, ​organisation, ​note et jeu : +  - bien vérifier l’**orthographe** 
-     ​- ​"#​FF0000":"​comment", ​(<​html><​font color="#FF0000">​rouge</​font></​html>​+  
-     - "#​8E6B23"​:"​comment", ​(<​html><​font color="#​8E6B23">​marron</​font></​html>​+==== 2- Conventions spécifiques à ICAR2 ==== 
-     ​"#​FF0080":​ "​orga", ​(<​html><​font color="#​FF0080">​rose</​font></​html>​+  - **sections ​thématiques** : des sections peuvent être encodées par une balise**[theme="​mon_theme" ​organisation="​mon_organisation"​]** \\ sans accenten remplaçant les espaces par des underscores ​ _  ​et entre guillemets anglaises ​" " ​ \\ On utilise l'​espace entre les deux paramètres theme et organisation. Une nouvelle balise ferme la balise qui la précède. \\ Si toutefois il y a une section qui n'a pas de thème ou d'​organisationmettre ​"none" ​à la place du nom du thème ou organisation ce qui sera reproduit dans les catégories « div » de TXM. \\ il ne doit rien avoir d'​autre que la balise dans sa ligne (pas de commentaire ni timing
-     ​"#​008000":"​theme", ​(<​html><​font color="#​008000">​vert</​font></​html>​+ \\ Organisation ​: (nommer les catégories en anglais)\\  
-     ​"#​8080FF":"​subtheme", ​(<​html><​font color="#​8080FF">​bleu clair</font></​html>​+Class (classe entière\\  
-     ​"#​000080":"​jeu" ​(<​html><​font color="#​000080">​bleu</​font></​html>​)\\ Remarque : seules les limites de thèmes sont transformées ​en limites ​de sections. Les autres lignes ​de couleur ne sont pas interprétées tout en étant restituées dans l'​édition ; +Group (travail en petits groupes)\\  
-  - tout ce qui ne rentre pas dans les règles énoncés ci-dessus est mentionné ​dans un fichier ​**rapport**.+Mixed (travail en petits groupes avec des interruptions/interventions PLENIERES de la prof, qui concernent toute la classe)\\  
 +Individual ​(travail individuel, chaque élève travaille sur sa propre tâche)\\  
 +- Monitoring Group (travail ​en groupes AVEC interventions spécifiques ​de l’enseignant auprès du groupe concerné, filmé)\\  
 +- Monitoring Individual (travail individuel AVEC interventions spécifiques ​de l’enseignant auprès de l’élève concerné, filmé)\\ ​ 
 +  - **nom de fichier** transcription. Afin de pouvoir réaliser des analyses chronologiques ​dans TXM, noter un numéro deux chiffres avant le nom de la transcription. Par exemple « P1 S01 10092010 » devient « **01** P1 S01 10092010 » 
 + 
 +  
 + 
 +==== 3- Exportation du rtf depuis Transana ==== 
 +Tout d’abord, exporter la transcription dans le logiciel Transana vers le format rtf avec les valeurs temporelles visibles mais **sans les codes temps.** \\  
 +Fichier→ sauvegarder le fichier sous→ choisir rtf puis valider ‘non’ dans sauvegarder les codes temps 
 + 
 + 
 +  
 +==== 4- Retours utilisateurs ==== 
 +dans cette section, ajouter les commentaires,​ rapport de bugs concernant les conventions 
 + 
 + 
  
public/import_de_transcriptions_en_texte_brut.1365700445.txt.gz · Dernière modification: 2013/04/11 19:14 par slh@ens-lyon.fr