Outils pour utilisateurs

Outils du site


public:umr_chs_antract

Ceci est une ancienne révision du document !


Analyse de corpus CHS avec TXM

Cette page recense les différentes discussions autour de projets d'analyse de corpus du laboratoire CHS et d'autres partenaires avec TXM.

Elle doit servir à faire la liaison entre IHRIM et CHS et au suivi des développements de solutions.

Dans la mesure où cette page est pour l'instant publique, il est intéressant de veiller à ne pas trop désigner de personnes et de projets trop détaillés ou explicites.

Projet ANTRACT

Le projet ANR Antract travaille sur le corpus des 1 262 journaux des Actualités Françaises qui ont été diffusés du 4 janvier 1945 au 25 février 1969.

Le corpus est constitué de journaux quotidiens qui se divisent en sujets.

Le partenariat est composé de :

  • CHS/Paris
  • INA
  • Voxolab
  • EURECOM
  • IHRIM
  • LIUM

Développement du corpus

Le projet travaille à partir de plusieurs types de sources :

  • vidéos (transfert des films de l'AF) : fichiers .mpeg, un fichier peut contenir plusieurs ou un seul sujet, un sujet peut être enregistré dans plusieurs fichiers
  • notices documentaires de l'INA : fichiers Excel, un fichier par année, une ligne par notice (une colonne indique le type de notice : sommaire, sujet, ou isolée)
  • images des facsimilés (scan) du texte des commentaires (de la voix off des films de l'AF) : il peut y avoir plusieurs sujets par fichier et plusieurs fichiers par sujet (un fichier = une image = une page, un sujet peut commencer en cours de page et se finir sur une page suivante)
  • transcriptions automatiques des commentaires (de la voix off des films de l'AF) : fichiers .trs ou .xml (ou autre, une douzaine de formats générés par l'outil du Mans), alignés sur les fichiers vidéo ; si l'on a préalablement redécoupé les vidéos par sujet (cf. septembre 2018), alors on a une transcription par sujet (cf. octobre 2018), sinon les transcriptions sont comme les vidéos et peuvent contenir plusieurs sujets, de même qu'un sujet peut être réparti sur plusieurs fichiers.

Les problématiques scientifiques sont en cours d'établissement, en lien avec les outils permettant de faire les analyses.

Dans le cadre de l'analyse textométrique, on s'intéresse de prime abord aux modalités textuelles du corpus.

Développement de fonctionnalités

Les fonctionnalités sont développées dans le cadre du chantier ANTRACT de TXM.

Analyse de corpus multimodal / polysémiotique

En attendant de développer une solution qui permettrait de gérer plusieurs textes en parallèle dans le même corpus (en particulier séquences et transcriptions de la voix-off), il devrait y avoir un intérêt à disposer de certains contenus textuels de la notice en en faisant des métadonnées du corpus de la voix off. Il est difficile de savoir où s'arrêter (quelles données suffiraient, quelles données sont vraiment utiles et exploitables en métadonnées), je (BP) propose donc un ordre du plus prioritaire au moins prioritaire :

  • 1. titrepropre : seule métadonnée “textuelle” qui s'impose clairement
  • 2. descripteurs : reprise brute de descripteursafflig ?
  • 3. generique : reprise brute de generiqueafflig ?
  • 4. resume : généralement soit plus court que séquences, soit seul rempli (avec un contenu +/- de séquences)
  • 5. sequences : champ qui peut être le plus long donc le moins adapté à devenir métadonnée ; mais aussi champ sur lequel les interrogations croisées avec la transcription seraient particulièrement intéressantes (mise en relation de ce qu'on voit -séquences- et ce qu'on dit -voix off-).

Combinaison de données par alignement au niveau sujet

Idéalement, il serait intéressant de pouvoir associer les parties textuelles des notices avec la voix off pour le travail d'analyse.

Terminologie :

  • une notice émission (“notice sommaire”) référence plusieurs notices sujets [BP : dans les données des fichiers excel c'est plutôt dans l'autre sens : une notice sujet a une métadonnée “lien notice principale” qui donne l'identifiant de la notice sommaire ; je ne crois pas que les notices sommaires aient un champ enregistrant la liste (ordonnée) des sujets de l'émission ; en revanche la donnée existe probablement quelque part à l'INA vue la présentation des notices sommaires dans Inamediapro].
  • les notices sont composées de champs : titre, résumé, séquences…
  • il y a des transcriptions d'émission (si on a donné à transcrire les (compilations des) vidéos correspondant aux notices sommaires)
  • il y a des transcription de sujets (si on a donné à transcrire les (compilations des) vidéos correspondant aux notices sujets)

L'unité documentaire (structure 'text') est le sujet (Rq. ce n'est pas le cas pour les versions 2018 du corpus des notices, pour lesquelles le “text” est l'année et la notice est une structure “notice”, mais c'est plus un artefact qu'un choix).

Les analyses types correspondantes seraient :

Analyse combinante 1

  • je sélectionne les sujets contenant “Brigitte Bardot” dans le résumé d'une notice sujet ou dans la séquence d'une notice sujet
    • je construis le sous-corpus de la voix off …
  • je calcule les mots spécifiques du sous-corpus de la voix off limité à ces sujets.
Solution dans TXM 0.8.0

Avec le corpus AFVOIXOFFV01 :

  • soit :
    • métadonnées = résumé de notice sujet ou séquence de notice sujet
    • unité textuelle = sujet
      • mots de la transcription voix off
  • 1) calculer le sous-corpus en mode avancé de sujets dont la métadonnée résumé contient “Brigitte Bardot” ou bien la métadonnée séquence contient “Brigitte Bardot”
    • requête [_.text_resume=".*Brigitte Bardot.*" | _.text_sequences=".*Brigitte Bardot.*"] expand to text
  • 2) calculer les spécificités du sous-corpus
  • Rq. la requête est potentiellement plus complexe car on peut souhaiter vouloir l'assouplir de deux façons : (i) en étendant la recherche à d'autres métadonnées (champs de la notice), comme le titre propre, les descripteurs, le générique ; (ii) en variant les graphies (ajout d'un %c, cas de “Bardot, Brigitte”, éventuellement qq BB, etc.)
Solution dans TXM 0.8.1 (corpus aligné //)

Le parallélisme est établi soit entre :

  • a) 3 corpus :
    • corpus résumé = AFRESUMES
    • // corpus séquence = AFSEQUENCES
    • // corpus voix off = AFVOIXOFF
  • b) 2 corpus : corpus résumé+séquence fusionnés // corpus voix off

cas a)

Avec les corpus AFRESUMES, AFSEQUENCES et AFVOIXOFF alignés au sujet :

  1. calculer le sous-corpus A de AFVOIXOFF des sujets alignées avec les séquences (AFSEQUENCES) qui contiennent la séquence de mots “Brigitte” “Bardot”
    • requête : <text> [] expand to text :AFSEQUENCES "Brigitte" "Bardot"
  2. calculer le sous-corpus B de AFVOIXOFF des sujets alignées avec les résumés (AFRESUMES) qui contiennent la séquence de mots “Brigitte” “Bardot”
    • requête : <text> [] expand to text :AFRESUMES "Brigitte" "Bardot"
  3. calculer le sous-corpus C = A union B
  4. calculer les spécificités du sous-corpus C par rapport au corpus AFVOIXOFF

cas b)

Idem en plus simple (pas besoin de faire l'union) et en fait plus réaliste par rapport aux données (nombreuses confusions entre les champs résumé et séquences : il n'y a quelquefois que le résumé, et alors celui-ci prend quelquefois la forme des Séquences).

Analyse combinante 2

  • je sélectionne les sujets contenant “Brigitte Bardot” dans le résumé d'une notice sujet et ne contenant pas “Brigitte Bardot” dans la voix off
  • je lis la voix off correspondante
  • ou bien je calcule les mots spécifiques de ce sous-corpus, pour identifier par quoi le terme aurait éventuellement été souvent remplacé
Solution dans TXM 0.8.0
  • 1) calculer le sous-corpus A en mode avancé de sujets dont la métadonnée résumé contient “Brigitte Bardot” ou bien la métadonnée séquence contient “Brigitte Bardot”
  • 2) calculer le sous-corpus B de tous les sujets (transcriptions) ne contenant pas la séquence de mots “brigitte” “bardot”
    • pour cela :
      • 2.1) calculer sous-corpus B' de tous les sujets contenant la séquence de mots “brigitte” “bardot”
      • 2.2) calculer sous-corpus B = total - B' (soustraction)
  • 3) calculer sous-corpus C = A inter B (intersection) ; consulter/feuilleter les transcriptions correspondantes, et si besoin :
  • 4) calculer les spécificités soit :
    • de C / A (en priorité)
    • de C / B
    • de C / A union B (union)
    • de C / corpus total

Représentations -> relations

  • métadonnées + corps
  • structures alternées en relation (Chirac, Mitterand)
    • succession ou alternance de structures → relation asymétrique →
      • sélection par la source → éventuellement sélection dans la cible → éventuellement lecture cible → spécificité de cible
      • a) fonctionnaires dans la source → spécificité de cible
      • b) fonctionnaires dans la source → pas “civil servant” dans la cible → spécificité de cible
  • structures d'un même texte en relations (séquences + résumés de notices AF)
  • textes / structures en relations (traduction ou version)
    • relation construite par des données d'alignement
    • sélectionne structures source pour construire le sous-corpus cible
    • spécificité du sous-corpus cible
  • textes / pages (milestones) en relation (traductions)

Solutions dans TXM

Trois solutions possibles à court terme :

1) En en faisant une autre partie du même texte

On aurait : Titre, Résumé, Séquences, Descripteurs, Générique, Transcriptions de voix off.

→ l'édition est potentiellement mixte : écrite + transcription → la tokenisation est mixte

2) Sinon, on peut avoir deux corpus :

  • un des notices (avec les parties textuelles des notices)
  • un des commentaires (avec les mêmes métadonnées que les notices + tout ou partie des champs textuels passés en métadonnées)

→ on réalise soi-même l'alignement dans des requêtes ad hoc

3) Sinon, on peut avoir deux corpus alignés au niveau du sujet :

  • un des notices (avec les parties textuelles des notices)
  • un des commentaires (avec les mêmes métadonnées que les notices)

⇒ pour la version 1 on s'en tient à la solution 2.


Retour à la liste des projets.

public/umr_chs_antract.1567683572.txt.gz · Dernière modification: 2019/09/05 13:39 par slh@ens-lyon.fr