Outils pour utilisateurs

Outils du site


public:umr_chs_antract

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:umr_chs_antract [2018/10/05 14:50]
benedicte.pincemin@ens-lyon.fr
public:umr_chs_antract [2018/10/05 15:50] (Version actuelle)
benedicte.pincemin@ens-lyon.fr
Ligne 125: Ligne 125:
 ===== Voix Off ===== ===== Voix Off =====
  
-==== Introduction ====+  * une première version du [[:​public:​antract:​antract_corpus_voixoff|Corpus TXM des transcriptions speech2text de la voix off]] a été réalisée.
  
-Une première version d'un corpus TXM appelé AFOFF composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises est en cours d'​élaboration. 
- 
-=== Choix des sources === 
- 
-Le corpus source est au format XML Vocapia ou XML Transcriber. 
- 
-Remarques : 
-  * TXM ne peut pas importer le format XML Vocapia directement 
-  * le Transcriber ne contient pas d'​informations au niveau du mot (comme le Vocapia) 
- 
-== Solution 1 : intégrer les informations au niveau du mot dans le Transcriber == 
- 
--> une demande est en cours pour intégrer les informations au niveau du mot dans la sortie Transcriber 
- 
-== Solution 2 : importer le XML Vocapia == 
- 
--> suppose le développement d'un nouveau module d'​import. Un prototype d'​import Vocapia a été réalisé dans le cadre de Matrice. Il faut préciser son niveau de développement et son statut. 
- 
-=== Métadonnées === 
- 
-La question se pose de pouvoir disposer, dès la première version de l'​import des transcriptions de voix off, des métadonnées des notices documentaires sujets. 
- 
-== Solution 1 == 
- 
-L'​unité documentaire "​transcription"​ correspond au sujet INA. Cela est compatible avec l'​architecture d'​import de TXM actuelle. 
- 
--> une demande est en cours pour produire les transcriptions au niveau du sujet 
- 
-== Solution 2 == 
- 
-Une table de fichiers + synchronisation des sujets est utilisée pour : 
-  * délimiter les sujets : séparer ou fusionner des fichiers 
-  * associer les métadonnées sujet aux transcriptions : au niveau des fichiers 
- 
--> suppose un développement en amont de l'​import 
- 
-== Composition des métadonnées == 
- 
-L'​idée générale est de s'​appuyer sur le travail de sélection et organisation fait pour le corpus des notices documentaires : 
-[[https://​groupes.renater.fr/​wiki/​txm-users/​public/​antract/​antract_corpus_notices#​version_22]] 
- 
-Dans un premier temps, on peut fonctionner sans les métadonnées reconstruites (les diverses variations de représentation de la date de diffusion). 
- 
-En attendant de développer une solution qui permettrait de gérer plusieurs textes en parallèle dans le même corpus (en particulier séquences et transcriptions de la voix-off), il devrait y avoir un intérêt à disposer de certains contenus textuels de la notice en en faisant des métadonnées du corpus de la voix off. Il est difficile de savoir où s'​arrêter (quelles données suffiraient,​ quelles données sont vraiment utiles et exploitables en métadonnées),​ je (BP) propose donc un ordre du plus prioritaire au moins prioritaire : 
-  * 1. titrepropre : seule métadonnée qui s'​impose clairement 
-  * 2. descripteurs : reprise brute de descripteursafflig ? 
-  * 3. generique : reprise brute de generiqueafflig ? 
-  * 4. resume : généralement soit plus court que séquences, soit seul rempli (avec un contenu +/- de séquences) 
-  * 5. sequences : champ qui peut être le plus long donc le moins adapté à devenir métadonnée ; mais aussi champ sur lequel les interrogations croisées avec la transcription seraient particulièrement intéressantes (mise en relation de ce qu'on voit -séquences- et ce qu'on dit -voix off-). 
-  ​ 
- 
-=== Combinaison de données par alignement au niveau sujet === 
- 
-Idéalement,​ il serait intéressant de pouvoir associer les parties textuelles des notices avec la voix off pour le travail d'​analyse 
- 
-Les analyses types correspondantes seraient : 
- 
-== Analyse combinante 1 == 
- 
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans le résumé ou dans la séquence d'une notice 
-    * je construis le sous-corpus de la voix off ... 
-  * je calcule les mots spécifiques du sous-corpus de la voix off limité à ces sujets. 
- 
-== Analyse combinante 2 == 
- 
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans la notice sujet  et ne contenant pas "​Brigitte Bardot"​ dans la voix off 
-  * je lis la voix off correspondante 
-  * ou bien je calcule les mots spécifiques de ce sous-corpus,​ pour identifier par quoi le terme aurait éventuellement été souvent remplacé 
- 
-== Solutions dans TXM == 
- 
-Trois solutions possibles à court terme : 
- 
-1) En en faisant une autre partie du même texte 
- 
-On aurait : Titre, Résumé, Descripteurs,​ Séquences, Transcriptions de voix off. 
- 
--> l'​édition est potentiellement mixte : écrite + transcription 
--> la tokenisation est mixte 
- 
-2) Sinon, on peut avoir deux corpus : 
-  * un des notices (avec les parties textuelles des notices) 
-  * un des commentaires (avec les mêmes métadonnées que les notices) 
- 
--> on réalise soi-même l'​alignement dans des requêtes ad hoc 
- 
-3) Sinon, on peut avoir deux corpus alignés au niveau du sujet : 
-  * un des notices (avec les parties textuelles des notices) 
-  * un des commentaires (avec les mêmes métadonnées que les notices) 
- 
-=== Synchronisation === 
- 
-Pour l'​étape corpus v2 ou v3 la question pourra se poser d'​aligner Séquences et voix off par les timecodes. ​ 
- 
-==== Retours ==== 
- 
-\\  
  
 ===== Notices documentaires : nouvelle version du corpus TXM ===== ===== Notices documentaires : nouvelle version du corpus TXM =====
public/umr_chs_antract.1538743855.txt.gz · Dernière modification: 2018/10/05 14:50 par benedicte.pincemin@ens-lyon.fr