Outils pour utilisateurs

Outils du site


public:umr_chs_antract

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:umr_chs_antract [2018/10/02 17:29]
benedicte.pincemin@ens-lyon.fr
public:umr_chs_antract [2018/10/05 15:50] (Version actuelle)
benedicte.pincemin@ens-lyon.fr
Ligne 125: Ligne 125:
 ===== Voix Off ===== ===== Voix Off =====
  
-==== Introduction ====+  * une première version du [[:​public:​antract:​antract_corpus_voixoff|Corpus TXM des transcriptions speech2text de la voix off]] a été réalisée.
  
-Une première version d'un corpus TXM appelé AFOFF composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises est en cours d'​élaboration. 
- 
-=== Choix des sources === 
- 
-Le corpus source est au format XML Vocapia ou XML Transcriber. 
- 
-Remarques : 
-  * TXM ne peut pas importer le format XML Vocapia directement 
-  * le Transcriber ne contient pas d'​informations au niveau du mot (comme le Vocapia) 
- 
-== Solution 1 : intégrer les informations au niveau du mot dans le Transcriber == 
- 
--> une demande est en cours pour intégrer les informations au niveau du mot dans la sortie Transcriber 
- 
-== Solution 2 : importer le XML Vocapia == 
- 
--> suppose le développement d'un nouveau module d'​import. Un prototype d'​import Vocapia a été réalisé dans le cadre de Matrice. Il faut préciser son niveau de développement et son statut. 
- 
-=== Métadonnées === 
- 
-La question se pose de pouvoir disposer, dès la première version de l'​import des transcriptions de voix off, des métadonnées des notices documentaires sujets. 
- 
-== Solution 1 == 
- 
-L'​unité documentaire "​transcription"​ correspond au sujet INA. Cela est compatible avec l'​architecture d'​import de TXM actuelle. 
- 
--> une demande est en cours pour produire les transcriptions au niveau du sujet 
- 
-== Solution 2 == 
- 
-Une table de fichiers + synchronisation des sujets est utilisée pour : 
-  * délimiter les sujets : séparer ou fusionner des fichiers 
-  * associer les métadonnées sujet aux transcriptions : au niveau des fichiers 
- 
--> suppose un développement en amont de l'​import 
- 
-=== Combinaison de données par alignement au niveau sujet === 
- 
-Idéalement,​ il serait intéressant de pouvoir associer les parties textuelles des notices avec la voix off pour le travail d'​analyse 
- 
-Les analyses types correspondantes seraient : 
- 
-== Analyse combinante 1 == 
- 
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans le résumé ou dans la séquence d'une notice 
-    * je construis le sous-corpus de la voix off ... 
-  * je calcule les mots spécifiques du sous-corpus de la voix off limité à ces sujets. 
- 
-== Analyse combinante 2 == 
- 
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans la notice sujet  et ne contenant pas "​Brigitte Bardot"​ dans la voix off 
-  * je lis la voix off correspondante 
-  * ou bien je calcule les mots spécifiques de ce sous-corpus,​ pour identifier par quoi le terme aurait éventuellement été souvent remplacé 
- 
-== Solutions dans TXM == 
- 
-Trois solutions possibles à court terme : 
- 
-1) En en faisant une autre partie du même texte 
- 
-On aurait : Titre, Résumé, Descripteurs,​ Séquences, Transcriptions de voix off. 
- 
--> l'​édition est potentiellement mixte : écrite + transcription 
--> la tokenisation est mixte 
- 
-2) Sinon, on peut avoir deux corpus : 
-  * un des notices (avec les parties textuelles des notices) 
-  * un des commentaires (avec les mêmes métadonnées que les notices) 
- 
--> on réalise soi-même l'​alignement dans des requêtes ad hoc 
- 
-3) Sinon, on peut avoir deux corpus alignés au niveau du sujet : 
-  * un des notices (avec les parties textuelles des notices) 
-  * un des commentaires (avec les mêmes métadonnées que les notices) 
- 
-=== Synchronisation === 
- 
-Pour l'​étape corpus v2 ou v3 la question pourra se poser d'​aligner Séquences et voix off par les timecodes. ​ 
- 
-==== Retours ==== 
- 
-\\  
  
 ===== Notices documentaires : nouvelle version du corpus TXM ===== ===== Notices documentaires : nouvelle version du corpus TXM =====
public/umr_chs_antract.1538494152.txt.gz · Dernière modification: 2018/10/02 17:29 par benedicte.pincemin@ens-lyon.fr