Outils pour utilisateurs

Outils du site


public:umr_chs_antract

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:umr_chs_antract [2019/09/05 14:10]
slh@ens-lyon.fr
public:umr_chs_antract [2019/10/09 10:11] (Version actuelle)
slh@ens-lyon.fr [Projet ANTRACT]
Ligne 14: Ligne 14:
  
 Le partenariat est composé de : Le partenariat est composé de :
-  * CHS/Paris +  * CHSParis 
-  * INA +  * INA, Paris 
-  * Voxolab +  * <​html><​strike>​Voxolab, Le Mans</​strike></​html>​ 
-  * EURECOM +  * EURECOM, Sophia Antipolis 
-  * IHRIM +  * IHRIM, Lyon 
-  * LIUM+  * LIUM, Le Mans
  
-====== Développement du corpus ​======+===== Développement du corpus =====
  
 Le projet travaille à partir de plusieurs types de sources : Le projet travaille à partir de plusieurs types de sources :
Ligne 33: Ligne 33:
 Dans le cadre de l'​analyse textométrique,​ on s'​intéresse de prime abord aux modalités textuelles du corpus. Dans le cadre de l'​analyse textométrique,​ on s'​intéresse de prime abord aux modalités textuelles du corpus.
  
-  * [[public:​umr_chs_antract:​developpement_corpus|Développement du corpus]]+  * [[public:​umr_chs_antract:​developpement_corpus|Développement du corpus]] (dans son ensemble) 
 +    * [[https://​groupes.renater.fr/​wiki/​txm-users/​public/​antract/​antract_corpus_notices|Développement du corpus des Notices (documentaires)]] 
 +    * [[https://​groupes.renater.fr/​wiki/​txm-users/​public/​antract/​antract_corpus_voixoff|Développement du corpus des Commentaires parlés (voix off)]] 
 +    * [[Développement du corpus des Commentaires écrits (tapuscrits)]]
  
-====== Développement de fonctionnalités ​======+===== Développement de fonctionnalités =====
  
 Les fonctionnalités sont développées dans le cadre du [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​chantier_antract|chantier ANTRACT]] de TXM. Les fonctionnalités sont développées dans le cadre du [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​chantier_antract|chantier ANTRACT]] de TXM.
-===== Analyse ​de corpus multimodal ​/ polysémiotique ​=====+==== Analyse ​multimodale ​/ polysémiotique ====
  
-En attendant de développer une solution qui permettrait de gérer plusieurs textes en parallèle dans le même corpus (en particulier séquences et transcriptions de la voix-off), il devrait y avoir un intérêt à disposer de certains contenus //​textuels//​ de la notice en en faisant des métadonnées du corpus de la voix off. Il est difficile de savoir où s'​arrêter (quelles données suffiraient,​ quelles données sont vraiment utiles et exploitables en métadonnées),​ je (BP) propose donc un ordre du plus prioritaire au moins prioritaire : 
-  * 1. titrepropre : seule métadonnée "​textuelle"​ qui s'​impose clairement 
-  * 2. descripteurs : reprise brute de descripteursafflig ? 
-  * 3. generique : reprise brute de generiqueafflig ? 
-  * 4. resume : généralement soit plus court que séquences, soit seul rempli (avec un contenu +/- de séquences) 
-  * 5. sequences : champ qui peut être le plus long donc le moins adapté à devenir métadonnée ; mais aussi champ sur lequel les interrogations croisées avec la transcription seraient particulièrement intéressantes (mise en relation de ce qu'on voit -séquences- et ce qu'on dit -voix off-). 
-  ​ 
-==== Combinaison de données par alignement au niveau sujet ==== 
  
-Idéalement,​ il serait intéressant ​de pouvoir associer les parties textuelles des notices avec la voix off pour le travail d'​analyse.+  * [[public:​umr_chs_antract:​analyse_multimodal|Analyse ​de corpus multimodal / polysémiotique]]
  
-Terminologie : +===== Analyses du corpus =====
-  * une notice émission ("​notice sommaire"​) référence plusieurs notices sujets [BP : dans les données des fichiers excel c'est plutôt dans l'​autre sens : une notice sujet a une métadonnée "lien notice principale"​ qui donne l'​identifiant de la notice sommaire ; je ne crois pas que les notices sommaires aient un champ enregistrant la liste (ordonnée) des sujets de l'​émission ; en revanche la donnée existe probablement quelque part à l'INA vue la présentation des notices sommaires dans Inamediapro]. +
-  * les notices sont composées de champs : titre, résumé, séquences... +
-  * il y a des transcriptions d'​émission (si on a donné à transcrire les (compilations des) vidéos correspondant aux notices sommaires) +
-  * il y a des transcription de sujets (si on a donné à transcrire les (compilations des) vidéos correspondant aux notices sujets)+
  
-L'​unité documentaire (structure '​text'​) est le sujet (Rq. ce n'est pas le cas pour les versions 2018 du corpus ​des notices, pour lesquelles le "​text"​ est l'​année et la notice est une structure "​notice",​ mais c'est plus un artefact qu'un choix).+==== Standardisation ​des sujets des Actualités Française ====
  
-Les analyses types correspondantes seraient : +  ​* [[public:umr_chs_antract:analyses_corpus:standardisation_sujets|Standardisation ​des sujets des Actualités Française]] (FM)
- +
-=== Analyse combinante 1 === +
- +
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans le résumé d'une notice sujet ou dans la séquence d'une notice sujet +
-    * je construis le sous-corpus de la voix off ... +
-  * je calcule les mots spécifiques du sous-corpus de la voix off limité à ces sujets. +
- +
-== Solution dans TXM 0.8.0 == +
- +
-Avec le corpus AFVOIXOFFV01 : +
-  * soit : +
-    * métadonnées = résumé de notice sujet ou séquence de notice sujet +
-    * unité textuelle ​ = sujet +
-      * mots de la transcription voix off +
-  * 1) calculer le sous-corpus en mode avancé de sujets dont la métadonnée résumé contient "​Brigitte Bardot"​ ou bien la métadonnée séquence contient "​Brigitte Bardot"​ +
-    ​requête %%[_.text_resume="​.*Brigitte Bardot.*"​ | _.text_sequences="​.*Brigitte Bardot.*"​] expand to text%% +
-  * 2) calculer les spécificités du sous-corpus +
-  * Rq. la requête est potentiellement plus complexe car on peut souhaiter vouloir l'​assouplir de deux façons ​(i) en étendant la recherche à d'​autres métadonnées (champs de la notice), comme le titre propre, les descripteurs,​ le générique ; (ii) en variant les graphies (ajout d'un %c, cas de "​Bardot,​ Brigitte",​ éventuellement qq BB, etc.) +
- +
-== Solution dans TXM 0.8.1 (corpus aligné //) == +
- +
-Le parallélisme est établi soit entre : +
-  * a) 3 corpus ​: +
-    * corpus résumé = AFRESUMES +
-    * %%//%% corpus séquence = AFSEQUENCES +
-    *  %%//%% corpus voix off = AFVOIXOFF +
-  * b) 2 corpus : corpus résumé+séquence fusionnés %%//%% corpus voix off +
- +
-**cas a)** +
- +
-Avec les corpus AFRESUMES, AFSEQUENCES et AFVOIXOFF alignés au sujet : +
-  - calculer le sous-corpus A de AFVOIXOFF ​des sujets ​alignées avec les séquences (AFSEQUENCES) qui contiennent la séquence de mots "​Brigitte"​ "​Bardot"​ +
-    * requête : %% <​text>​ [] expand to text :​AFSEQUENCES "​Brigitte"​ "​Bardot"​%% +
-  - calculer le sous-corpus B de AFVOIXOFF ​des sujets alignées avec les résumés (AFRESUMES) qui contiennent la séquence de mots "​Brigitte"​ "​Bardot"​ +
-    * requête : %%<​text>​ [expand to text :AFRESUMES "​Brigitte"​ "​Bardot"​%% +
-  - calculer le sous-corpus C = A union B +
-  - calculer les spécificités du sous-corpus C par rapport au corpus AFVOIXOFF +
- +
- +
-**cas b)** +
- +
-Idem en plus simple (pas besoin de faire l'​union) et en fait plus réaliste par rapport aux données (nombreuses confusions entre les champs résumé et séquences : il n'y a quelquefois que le résumé, et alors celui-ci prend quelquefois la forme des Séquences). +
- +
-=== Analyse combinante 2 === +
- +
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans le résumé d'une notice sujet et ne contenant pas "​Brigitte Bardot"​ dans la voix off +
-  * je lis la voix off correspondante +
-  * ou bien je calcule les mots spécifiques de ce sous-corpus,​ pour identifier par quoi le terme aurait éventuellement été souvent remplacé +
- +
-== Solution dans TXM 0.8.0 == +
- +
-  * 1) calculer le sous-corpus A en mode avancé de sujets dont la métadonnée résumé contient "​Brigitte Bardot"​ ou bien la métadonnée séquence contient "​Brigitte Bardot"​ +
-  * 2) calculer le sous-corpus B de tous les sujets (transcriptions) ne contenant pas la séquence de mots "​brigitte"​ "​bardot"​ +
-    * pour cela : +
-      * 2.1) calculer sous-corpus B' de tous les sujets contenant la séquence de mots "​brigitte"​ "​bardot"​ +
-      * 2.2) calculer sous-corpus B = total - B' (**soustraction**) +
-  * 3) calculer sous-corpus C = A inter B  (**intersection**) ; consulter/​feuilleter les transcriptions correspondantes,​ et si besoin : +
-  * 4) calculer les spécificités soit : +
-    * de C / A (en priorité) +
-    * de C / B +
-    * de C / A union B (**union**) +
-    * de C / corpus total +
- +
-=== Représentations -> relations === +
- +
-  * métadonnées + corps +
-    * succession ou alternance de structures -> relation asymétrique -> +
-      * sélection par la source -> éventuellement sélection dans la cible -> éventuellement lecture cible -> spécificité de cible +
-      * a) fonctionnaires dans la source -> spécificité de cible +
-      * b) fonctionnaires dans la source -> pas "civil servant"​ dans la cible -> spécificité de cible +
-  * structures d'un même texte en relations (séquences + résumés de notices AF) +
-  * textes / structures en relations (traduction ou version) +
-    * relation construite par des données d'​alignement +
-    * sélectionne structures source pour construire le sous-corpus cible +
-    * spécificité du sous-corpus cible +
-  * textes / pages (milestones) en relation (traductions) +
-  * structures alternées en relation (Chirac, Mitterand) +
- +
-=== Solutions dans TXM === +
- +
-Trois solutions possibles à court terme : +
- +
-1) En en faisant une autre partie du même texte +
- +
-On aurait : Titre, Résumé, Séquences, Descripteurs,​ Générique,​ Transcriptions de voix off. +
- +
--> l'​édition est potentiellement mixte : écrite + transcription +
--> la tokenisation est mixte +
- +
-2) Sinon, on peut avoir deux corpus : +
-  * un des notices (avec les parties textuelles des notices) +
-  * un des commentaires (avec les mêmes métadonnées que les notices + tout ou partie des champs textuels passés en métadonnées) +
- +
--> on réalise soi-même l'​alignement dans des requêtes ad hoc +
- +
-3) Sinon, on peut avoir deux corpus alignés au niveau du sujet : +
-  * un des notices (avec les parties textuelles des notices) +
-  * un des commentaires ​(avec les mêmes métadonnées que les notices) +
- +
-=> pour la version 1 on s'en tient à la solution 2.+
  
 ---- ----
 -> [[:|Retour à la liste des projets]]. -> [[:|Retour à la liste des projets]].
  
public/umr_chs_antract.1567685446.txt.gz · Dernière modification: 2019/09/05 14:10 par slh@ens-lyon.fr