Outils pour utilisateurs

Outils du site


public:import_de_transcriptions_en_texte_brut

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:import_de_transcriptions_en_texte_brut [2013/04/11 19:54]
slh@ens-lyon.fr
public:import_de_transcriptions_en_texte_brut [2013/07/17 12:18] (Version actuelle)
justine.lascar@gmail.com
Ligne 1: Ligne 1:
-====== Conventions de transcription ​d'​enregistrements audiovisuels en "texte brut" (document RTF ou Libre Office ODT ou Microsoft Word) pour l'​import automatique dans TXM ======+====== Conventions de transcription ​synchronisée au format ​"texte brut" (document RTF ou Libre Office ODT ou Microsoft Word) pour l'​import automatique dans TXM ======
  
 Ces conventions sont adaptées pour la saisie de transcriptions avec le logiciel [[http://​www.transana.org|Transana]],​ mais elles Ces conventions sont adaptées pour la saisie de transcriptions avec le logiciel [[http://​www.transana.org|Transana]],​ mais elles
-peuvent également servir à transcrire directement dans LibreOffice-Writer ou Word. La stratégie d'​import dans TXM consiste à transformer automatiquement la transcription vers le format XML Transcriber puis à appliquer le [[http://​txm.sourceforge.net/​doc/​manual/​manual50.xhtml#​toc172|module d'​import Transcriber+CSV]] dessus. Les règles du module d'importation TRS+CSV de TXM s'​appliquent donc également à ce type de transcriptions. Par exemple, l'​importation est réalisée à partir d'un lot de plusieurs transcriptions rassemblées dans un même répertoire. ​Actuellement, ​l'importation est réalisée par le biais d'un script Groovy. Un nouveau module d'​import utilisable directement dans +peuvent également servir à transcrire directement dans LibreOffice Writer ou Microsoft ​Word. La stratégie d'​import dans TXM consiste à transformer automatiquement la transcription vers le format XML Transcriber ​avec l'aide d'un script Groovy ​puis à appliquer le [[http://​txm.sourceforge.net/​doc/​manual/​manual50.xhtml#​toc172|module d'​import Transcriber+CSV]] dessus. Les règles du module d'import Transcriber+CSV de TXM s'​appliquent donc également à ce type de transcriptions. Par exemple, l'​importation est réalisée à partir d'un lot de plusieurs transcriptions rassemblées dans un même répertoire. 
-TXM pourra être développé si cela semble utile.+==== 1- Conventions de transcriptions nécessaires pour l’exécution du script ​'RunTransformation'====
  
-  - **tours de parole** : un tour de parole commence par un début de ligne avec le code du locuteur, suivi d'un caractère <​Tabulation>​ puis de la transcription du tour. L'​identifiant du locuteur est transformé systématiquement en majuscules pour uniformiser les identifiants ; + 
-  - marques de **synchronisation** : la transcription peut contenir des marques de synchronisation ​à n'​importe quel endroit, de la forme "(h:mm:ss.M)" ​- par exemple ​"(0:00:48.5)" ​soit à 48 secondes et demi du début de l'​enregistrement. TXM essaye d'​approximer le temps de début et de fin de chaque tour de parole en cas de présence de marques de synchronisation dans la transcription ​(voir également la convention pour le préambule) ;+   - **tours de parole** : un tour de parole commence par un début de ligne avec le code du locuteur, suivi d'un caractère <​Tabulation>​ puis de la transcription du tour. L'​identifiant du locuteur est transformé systématiquement en majuscules pour uniformiser les identifiants ; \\ pour vérifier qu’il y a bien une tabulation entre le locuteur et la transcription de l’énoncé sous word : transformer le texte de la transcription en tableau et vérifier que l’on n’obtient que deux colonnes : la première colonne n’a que le nom du locuteur (il peut y avoir entre parenthèse à qui il s’adresse ou autre) et la deuxième ce qu’il dit ou fait. On peut également faire la recherche ‘^t^t’ dans le module de recherche word pour trouver 2 tabulations qui se suivent, les remplacer alors par une seule ‘^t’ 
 +  - marques de **synchronisation** : la transcription peut contenir des marques de synchronisation ​sous  ​la forme (h:mm:ss.M)” - par exemple ​(0:00:48.5)” soit à 48 secondes et demi du début de l'​enregistrement. Il est recommandé de mettre ces marques de synchronisation en fin de tour de parole ou en cours de tour (éviter le début de tour). TXM essaye d'​approximer le temps de début et de fin de chaque tour de parole en cas de présence de marques de synchronisation dans la transcription. Attention ​le premier timing doit être noté (00:​00:​00.0),​ tout ce qui se situe avant ce premier timing est considéré comme préambule ​(voir point suivant). Pensez aussi à mettre un timing final à la fin du dernier tour ;
   - **préambule** de la transcription : tout ce qui précède la première marque de synchronisation ne fait pas partie de la transcription,​ mais est affiché en préambule de l'​édition de la transcription ;   - **préambule** de la transcription : tout ce qui précède la première marque de synchronisation ne fait pas partie de la transcription,​ mais est affiché en préambule de l'​édition de la transcription ;
-  - **commentaires** : les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils soient en italique n'est pas différencié ;+  - **commentaires** : les commentaires sont entre parenthèses ou entre crochets. Le fait qu'ils soient en italique n'est pas différencié ; mettre entre parenthèse tout ce qui n’est pas de la parole
   - **ponctuations** : la ponctuation ne fait pas partie de la transcription (elle n'est pas indexée dans le lexique des unités lexicales) mais est restituée dans les pages d'​édition pour assister sa lecture ;   - **ponctuations** : la ponctuation ne fait pas partie de la transcription (elle n'est pas indexée dans le lexique des unités lexicales) mais est restituée dans les pages d'​édition pour assister sa lecture ;
-  - **sections** thématiques : des sections peuvent être encodées par une ligne de début de section transcrivant leur titre et dont la couleur de police définit le typeIl existe les types prédéfinis suivants : thème, sous-thème, ​organisation, ​note et jeu : +  - bien vérifier l’**orthographe** 
-     ​- ​"#​FF0000":"​comment", ​(<​html><​font color="#FF0000">​rouge</​font></​html>​+  
-     - "#​8E6B23"​:"​comment", ​(<​html><​font color="#​8E6B23">​marron</​font></​html>​+==== 2- Conventions spécifiques à ICAR2 ==== 
-     ​"#​FF0080":​ "​orga", ​(<​html><​font color="#​FF0080">​rose</​font></​html>​+  - **sections ​thématiques** : des sections peuvent être encodées par une balise**[theme="​mon_theme" ​organisation="​mon_organisation"​]** \\ sans accenten remplaçant les espaces par des underscores ​ _  ​et entre guillemets anglaises ​" " ​ \\ On utilise l'​espace entre les deux paramètres theme et organisation. Une nouvelle balise ferme la balise qui la précède. \\ Si toutefois il y a une section qui n'a pas de thème ou d'​organisationmettre ​"none" ​à la place du nom du thème ou organisation ce qui sera reproduit dans les catégories « div » de TXM. \\ il ne doit rien avoir d'​autre que la balise dans sa ligne (pas de commentaire ni timing
-     ​"#​008000":"​theme", ​(<​html><​font color="#​008000">​vert</​font></​html>​+ \\ Organisation ​: (nommer les catégories en anglais)\\  
-     ​"#​8080FF":"​subtheme", ​(<​html><​font color="#​8080FF">​bleu clair</font></​html>​+Class (classe entière\\  
-     ​"#​000080":"​jeu" ​(<​html><​font color="#​000080">​bleu</​font></​html>​)\\ Remarque : seules les limites de thèmes sont transformées ​en limites ​de sections. Les autres lignes ​de couleur ne sont pas interprétées tout en étant restituées dans l'​édition ; +Group (travail en petits groupes)\\  
-  - tout ce qui ne rentre pas dans les règles énoncés ci-dessus est mentionné ​dans un fichier ​**rapport**.+Mixed (travail en petits groupes avec des interruptions/interventions PLENIERES de la prof, qui concernent toute la classe)\\  
 +Individual ​(travail individuel, chaque élève travaille sur sa propre tâche)\\  
 +- Monitoring Group (travail ​en groupes AVEC interventions spécifiques ​de l’enseignant auprès du groupe concerné, filmé)\\  
 +- Monitoring Individual (travail individuel AVEC interventions spécifiques ​de l’enseignant auprès de l’élève concerné, filmé)\\ ​ 
 +  - **nom de fichier** transcription. Afin de pouvoir réaliser des analyses chronologiques ​dans TXM, noter un numéro deux chiffres avant le nom de la transcription. Par exemple « P1 S01 10092010 » devient « **01** P1 S01 10092010 » 
 + 
 +  
 + 
 +==== 3- Exportation du rtf depuis Transana ==== 
 +Tout d’abord, exporter la transcription dans le logiciel Transana vers le format rtf avec les valeurs temporelles visibles mais **sans les codes temps.** \\  
 +Fichier→ sauvegarder le fichier sous→ choisir rtf puis valider ‘non’ dans sauvegarder les codes temps 
 + 
 + 
 +  
 +==== 4- Retours utilisateurs ==== 
 +dans cette section, ajouter les commentaires,​ rapport de bugs concernant les conventions 
 + 
 + 
  
public/import_de_transcriptions_en_texte_brut.1365702866.txt.gz · Dernière modification: 2013/04/11 19:54 par slh@ens-lyon.fr