Outils pour utilisateurs

Outils du site


public:umr_chs_antract

Analyse de corpus CHS avec TXM

Cette page recense les différentes discussions autour de projets d'analyse de corpus du laboratoire CHS et d'autres partenaires avec TXM.

Elle doit servir à faire la liaison entre IHRIM et CHS et au suivi des développements de solutions.

Dans la mesure où cette page est pour l'instant publique, il est intéressant de veiller à ne pas trop désigner de personnes et de projets trop détaillés ou explicites.

Projet ANTRACT

Le projet ANR Antract travaille sur le corpus des 1 262 journaux des Actualités Françaises qui ont été diffusés du 4 janvier 1945 au 25 février 1969.

Le corpus est constitué de journaux quotidiens qui se divisent en sujets.

Le partenariat est composé de :

  • CHS, Paris
  • INA, Paris
  • Voxolab, Le Mans
  • EURECOM, Sophia Antipolis
  • IHRIM, Lyon
  • LIUM, Le Mans

Développement du corpus

Le projet travaille à partir de plusieurs types de sources :

  • vidéos (transfert des films de l'AF) : fichiers .mpeg, un fichier peut contenir plusieurs ou un seul sujet, un sujet peut être enregistré dans plusieurs fichiers
  • notices documentaires de l'INA : fichiers Excel, un fichier par année, une ligne par notice (une colonne indique le type de notice : sommaire, sujet, ou isolée)
  • images des facsimilés (scan) du texte des commentaires (de la voix off des films de l'AF) : il peut y avoir plusieurs sujets par fichier et plusieurs fichiers par sujet (un fichier = une image = une page, un sujet peut commencer en cours de page et se finir sur une page suivante)
  • transcriptions automatiques des commentaires (de la voix off des films de l'AF) : fichiers .trs ou .xml (ou autre, une douzaine de formats générés par l'outil du Mans), alignés sur les fichiers vidéo ; si l'on a préalablement redécoupé les vidéos par sujet (cf. septembre 2018), alors on a une transcription par sujet (cf. octobre 2018), sinon les transcriptions sont comme les vidéos et peuvent contenir plusieurs sujets, de même qu'un sujet peut être réparti sur plusieurs fichiers.

Les problématiques scientifiques sont en cours d'établissement, en lien avec les outils permettant de faire les analyses.

Dans le cadre de l'analyse textométrique, on s'intéresse de prime abord aux modalités textuelles du corpus.

Développement de fonctionnalités

Les fonctionnalités sont développées dans le cadre du chantier ANTRACT de TXM.

Analyse multimodale / polysémiotique

Analyses du corpus

Standardisation des sujets des Actualités Française

public/umr_chs_antract.txt · Dernière modification: 2019/10/09 10:11 par slh@ens-lyon.fr