Analyse de corpus CHS avec TXM

Cette page recense les différentes discussions autour de projets d'analyse de corpus du laboratoire CHS et d'autres partenaires avec TXM.

Elle doit servir à faire la liaison entre IHRIM et CHS et au suivi des développements de solutions.

Dans la mesure où cette page est pour l'instant publique, il est intéressant de veiller à ne pas trop désigner de personnes et de projets trop détaillés ou explicites.

Projet ANTRACT

Le projet ANR Antract travaille sur le corpus des 1 262 journaux des Actualités Françaises qui ont été diffusés du 4 janvier 1945 au 25 février 1969.

Le corpus est constitué de journaux quotidiens qui se divisent en sujets.

Le partenariat est composé de :

  • CHS/Paris
  • INA
  • Voxolab
  • EURECOM
  • IHRIM
  • LIUM

Le projet travaille à partir de plusieurs types de sources :

  • vidéos (transfert des films de l'AF) : fichiers .mpeg, un fichier peut contenir plusieurs ou un seul sujet, un sujet peut être enregistré dans plusieurs fichiers
  • notices documentaires de l'INA : fichiers Excel, un fichier par année, une ligne par sujet
  • images des facsimilés (scan) du texte des commentaires (de la voix off des films de l'AF) : plusieurs journaux de l'AF par fichier
  • transcriptions automatiques des commentaires (de la voix off des films de l'AF) : fichiers .mpeg, un fichier peut contenir plusieurs ou un seul sujet, un sujet peut être enregistré dans plusieurs fichiers (alignés sur les fichiers vidéo)

Les problématiques scientifiques sont en cours d'établissement, en lien avec les outils premmettant de faire les analyses.

Dans le cadre de l'analyse textométrique, on s'intéresse de prime abord aux modalités textuelles du corpus.

Différentes étapes d'élaboration du corpus sont prévues :

  • Corpus v0, janvier 2018 (pas une étape prévue du projet)
  • Corpus v1, août 2018
  • Corpus v2, septembre 2019
  • Corpus v3, mars 2020
  • Corpus v4, août 2020

On entend par corpus le “corpus de données” dans son ensemble, c'est à dire pas forcément de corpus TXM en tant que tel, mais des différentes informations disponibles et qu'on se donne à voir et à analyser par TXM. Des corpus TXM seront bien sûr réalisés au fur et à mesure du projet en fonction des types de données et des analyses visées.

Schéma visualisant les différentes étapes de production de corpus TXM (diapo 17 de la présentation faite à la réunion de lancement à Paris le 30 janvier 2018

Étape corpus v0 (janvier 2018)

Introduction

Ce qui est prévu dans le descriptif du projet

Rien à ce stade !

Il s'agit d'une initiative de l'IHRIM, non prévue dans le document de projet (pas de livrable).

Ce qui est réalisé

La première réalisation est un corpus TXM appelé AFNOTICES qui a été créé pour illustrer les possibilités de l'outil à la réunion de lancement, le 30 janvier 2018 à Paris. Elle a porté sur des données déjà mises à disposition par l'INA : les notices documentaires.

En complément, en avril 2018 , pour permettre aux participants d'exploiter eux-mêmes le corpus sans attendre la formation TXM de l'automne, et qu'ils puissent ainsi trouver directement des réponses à leurs questions documentaires, Serge a rédigé et diffusé un petit tutoriel pas-à-pas d'exploitation du corpus des Notices des AF avec TXM.

Le corpus TXM des Notices et le tutoriel se trouvent dans sharedocs à l'adresse : ANTRACT/SP2 Corpus & Recherche technologique/TXM/Corpus notices documentaires.

Une deuxième réalisation est un corpus TXM appelé AF-CMT-OCR-2-TT créé pour une expérimentation d'import des OCR des commentaires, dans la première version de ceux-ci, pour avoir une idée de l'exploitabilité -ou non- de ces documents dans l'état de cette première version d'OCR (avant essais d'amélioration).

Corpus TXM des Notices documentaires

Tutoriel

Le tutoriel a été produit et diffusé début avril. Il s'intitule “Tutoriel d’exploitation documentaire du corpus des Notices documentaires de l'AF avec TXM” et compte une dizaine de pages.

Le tutoriel introduit de façon minimaliste à TXM et aux exemples d'exploration suivants :

  • les notices évoquant « De Gaulle »
  • les notices évoquant « De Gaulle » et « Paolo Bertoli » ensemble
  • le décompte des différents types de plans utilisés dans les notices
  • les notices évoquant un plan moyen ou un gros plan de « De Gaulle »
  • le décompte des différents types de plans évoquant « De Gaulle »

Textes de Commentaires

Les textes de commentaires sont des documents papier dactylographiés ou imprimés établis avant (pour préparer la lecture des commentaires - voix off ?) ou après (pour rendre compte des commentaires - voix off ?) la publication d'une édition des AF.

Une première version d'un corpus TXM des premiers OCR non vérifiés des commentaires dactylographiés ou typographiés, appelé AF-CMT-OCR-2-TT (Actualités Françaises - Commentaires - deuxième OCR - lemmatisé avec TreeTagger), a été réalisée.

Le corpus est structuré par les 34 fichiers chronologiques.

Le corpus source est au format TXT.

Le corpus est déposé dans sharedocs dans le répertoire 'ANTRACT/SP2 Corpus & Recherche technologique/TXM/Corpus OCR de commentaires'.

Retours

[SLH] si on avance sur ce corpus, il serait intéressant d'essayer de faire évoluer deux choses, en plus des résultats de l'OCR :

  • a) la relation entre le texte d'OCR des commentaires et les images de pages : pour cela il faudrait avoir une information de délimitation des textes entre les pages. Ça peut peut-être venir d'options du logiciel d'OCR : un fichier texte par image de page, un saut de page forcé par image de page, etc. à partir du moment où on peut lier le texte d'une image de page à cette image on peut alors produire une édition synoptique des textes qui affiche côte-à-côte le résultat d'OCR et l'image de la page, pour pouvoir identifier les zones d'image problématiques voire - dans certains cas - lire le texte dans l'image alors que l'OCR n'a rien trouvé. Un peu à l'image de cette édition synoptique du tour du monde en 80 jours hébergée dans notre portail TXM de démonstration : http://portal.textometrie.org/demo?command=edition&path=/TDM80J&textid=tdm80j&editions=facs,default&pageid=4
  • b) la relation entre le texte d'OCR des commentaires et les informations de sujets que nous avons par ailleurs. Cela supposerait de descendre au niveau des sujets dans les commentaires. C'est à dire de délimiter aux endroits marqués par des identifiants de sujets dans la marge. Par exemple 45003, 45004, 45005 etc. début 1945. À partir du moment où on pourrait établir cette liaison, on pourrait relier les textes et les métadonnées des notices sujets avec les textes des commentaires. Il faut bien sûr établir l'intérêt d'obtenir cela si on veut investir dans cette direction.

Étape corpus v1 (août 2018)

Introduction

Ce qui est prévu dans le descriptif du projet

Prévu comme livrable (2.3.a) au mois 9 (août 2018), dans l'idée de servir de corpus pour la formation TXM puis pour les premières analyses textométriques des historiens. Il doit également permettre de faire des retours utilisateurs pour orienter des développements de fonctionnalité et d'interface financés par le projet.

Il inclut non seulement les notices documentaires, mais aussi le “texte” des actualités françaises : le commentaire voix off.

Il est prévu qu'à cette date le commentaire soit disponible par l'OCR des images des pages du tapuscrit.

On se propose donc de produire un corpus avec :

  • les métadonnées issues des notices documentaires
  • une édition synoptique du texte de la voix off et de la page de tapuscrit correspondante.

Ce qui est réalisé

Le commentaire voix off peut venir en fait de deux sources :

  • Le projet prévoyait qu'à cette date serait disponible le commentaire tel que reconstitué à partir d'un OCR des images des tapuscrits : on dispose bien de premiers résultats d'OCR, mais ceux-ci semblent de médiocre qualité (il faudrait affiner le choix et le réglage des OCR) et de plus la correspondance entre les images des pages et les sujets des notices n'est pas faite (elle est envisagée plus tard, par un alignement avec la transcription).
  • En revanche dès fin mai 2018, le LIUM commence à livrer de premières transcriptions automatiques de la bande son, qui semblent fournir un texte de meilleure qualité, et bien découpé en sujets.

Par ailleurs, d'autres données non prévues commencent à être disponibles, on peut réfléchir à la faisabilité et l'intérêt de les intégrer :

  • reconnaissance de la musique ou des voix (en distinguant femme/homme)
  • des annotations des historiens sur la vidéo ? (envisagé mais pas du tout commencé encore, format encore indéfini, recueil peut-être via une interface INA, à voir)

Voix Off

Notices documentaires : nouvelle version du corpus TXM

Étape corpus v2 (septembre 2019)

Introduction

Ce qui est prévu dans le descriptif du projet

Prévu comme livrable 2.3c) au mois 22 (septembre 2019), dans l'idée de profiter des premiers développements de TXM dans le cadre du projet, notamment la consolidation du retour à la vidéo depuis le commentaire speech2text timecodé, et peut-être la prise en compte de premiers retours utilisateurs.

Le corpus inclut donc :

  • les notices documentaires
  • le commentaire voix off
    • texte OCR - (alignement synoptique) → images du tapuscrit
    • le texte speech2text - (lien hypertexte) → vidéo

Ce qui est réalisé

Il faudra voir si la composante OCR+images est satisfaisante, du point de vue de la qualité du texte et de l'alignement sujets ↔ sections de texte ↔ images des pages.

Étape corpus v3 (mars 2020)

Introduction

Ce qui est prévu dans le descriptif du projet

Prévu au mois 28 (mars 2020) (pas vraiment de livrable sinon le 2.3d au mois 30, mais qui correspond plutôt au corpus v4, cf. ci-après), il intègre tous les volets disponibles pertinents synchronisés. Il bénéficie également des améliorations et enrichissements de TXM développés suite aux retours utilisateurs (livrable 2.7a, même mois = version beta des modules de TXM développés dans le projet).

Par rapport à la v2, il peut comporter par exemple les enrichissements suivants :

  • commentaires annotés en entités nommées
  • séquences timecodée
  • annotations sur la vidéo
  • etc.

Ce qui est réalisé

Étape corpus v4 (août 2020)

Introduction

Ce qui est prévu dans le descriptif du projet

Prévu au mois 33 (août 2020), c'est une mise-à-jour du corpus v3 avec les versions finales des différents volets (qui ont pu être améliorés sur la dernière période). Il bénéficie également des derniers correctifs sur le logiciel suite aux derniers retours utilisateurs (livrable 2.7b, au mois 32, juillet 2020).

A la fin du projet il y a deux versions du corpus (v3 et v4) pour un seul livrable Le livrable 2.3d (au mois 30, mai 2020) est le “corpus enrichi final”, pour TXM il est détaillé en corpus v3 et corpus v4 pour permettre une dernière boucle de retours utilisateurs et prévoir le travail d'intégration des toutes dernières versions des données avec la toute dernière version du logiciel (livrable 2.7b, au mois 32, juillet 2020).

Par rapport à la v2, il peut comporter par exemple les enrichissements suivants :

  • commentaires annotés en entités nommées
  • séquences timecodée
  • annotations sur la vidéo
  • etc.

Ce qui est réalisé


Retour à la liste des projets.

public/umr_chs_antract.txt · Dernière modification: 2018/10/05 15:50 par benedicte.pincemin@ens-lyon.fr