Analyse de corpus CHS avec TXM

Cette page recense les différentes discussions autour de projets d'analyse de corpus du laboratoire CHS et d'autres partenaires avec TXM.

Elle doit servir à faire la liaison entre IHRIM et CHS et au suivi des développements de solutions.

Dans la mesure où cette page est pour l'instant publique, il est intéressant de veiller à ne pas trop désigner de personnes et de projets trop détaillés ou explicites.

Projet ANTRACT

Le projet ANR Antract travaille sur le corpus des 1 262 journaux des Actualités Françaises qui ont été diffusés du 4 janvier 1945 au 25 février 1969.

Le corpus est constitué de journaux quotidiens qui se divisent en sujets.

Le partenariat est composé de :

  • CHS/Paris
  • INA
  • Voxolab
  • EURECOM
  • IHRIM
  • LIUM

Le projet travaille à partir de plusieurs types de sources :

  • vidéos (transfert des films de l'AF) : fichiers .mpeg, un fichier par sujet
  • notices documentaires de l'INA : fichiers Excel, un fichier par année
  • images des facsimilés (scan) du texte des commentaires (de la voix off des films de l'AF) : plusieurs journaux de l'AF par fichier
  • transcriptions automatiques des commentaires (de la voix off des films de l'AF) : un fichier par sujet (aligné sur les fichiers vidéo)

Les problématiques scientifiques sont en cours d'établissement, en lien avec les outils premmettant de faire les analyses.

Dans le cadre de l'analyse avec la plateforme TXM, on s'intéresse de prime abord aux modalités textuelles du corpus.

Différentes phases d'élaboration du corpus sont prévues :

  • Corpus v0, janvier 2018 (pas un livrable prévu du projet)
  • Corpus v1, août 2018
  • Corpus v2, septembre 2019
  • Corpus v3, mars 2020
  • Corpus v4, août 2020

Schéma visualisant les différentes étapes de production de corpus TXM (diapo 17 de la présentation faite à la réunion de lancement à Paris le 30 janvier 2018

Corpus v0 (janvier 2018)

Introduction

Ce qui est prévu dans le descriptif du projet

Rien à ce stade !

Il s'agit d'une initiative de l'IHRIM, non prévue dans le document de projet (pas de livrable).

Ce qui est réalisé

La première réalisation est un corpus qui a été créé pour illustrer les possibilités de TXM à la réunion de lancement, le 30 janvier 2018 à Paris. Elle a porté sur des données déjà mises à disposition par l'INA : les notices documentaires.

En complément, en avril 2018 , pour permettre aux participants d'exploiter eux-mêmes le corpus sans attendre la formation TXM de l'automne, et qu'ils puissent ainsi trouver directement des réponses à leurs questions documentaires, Serge a rédigé et diffusé un petit tutoriel pas-à-pas d'exploitation du corpus des Notices des AF avec TXM.

Le corpus des Notices et le tutoriel se trouvent dans sharedocs à l'adresse : ANTRACT/SP2 Corpus & Recherche technologique/TXM/Corpus notices documentaires.

Une deuxième réalisation a été une expérimentation d'import des OCR des commentaires, dans la première version de ceux-ci, pour avoir une idée de l'exploitabilité -ou non- de ces documents dans l'état de cette première version d'OCR (avant essais d'amélioration).

Notices documentaires

Historique des versions

Le binaire TXM utilisé pour la présentation du 30 janvier a été produit le 29. (Il faisait suite à une toute première version qui n'a servi qu'à le mettre au point.)

Une seconde version du binaire a été produite le surlendemain de la réunion, 1er février, pour apporter tout de suite quelques améliorations :

  • l'ajout de structures descripteur@type dans tous les champs ayant une forme de descripteur “DET : … ;”
  • l'ajout des propriétés *jour, *mois et *année sur les sujets (extraits de la date de diffusion), ainsi que le *jour de la semaine.

Le fichier correspondant (AFNOTICES-2018-02-01.txm) a été déposé dans sharedocs.

Procédure d'import

Le corpus source est au format Excel .xlsx. Une macro a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Un certain nombre de colonnes sont transformées en métadonnées et d'autres en parties textuelles.

Les macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) ont été publiées par Serge le 2 février 2018. La doc est à la place habituelle sur le wiki txm-users, page de documentation des macros.

Composition et structure du corpus

Le corpus est structuré de la façon suivante :

  • chaque année (1945 à 1969) correspond à un texte (text) du corpus TXM et à son édition [de

texte] dont chaque page correspond à un sujet (l'année est notée dans deux propriétés de la structure “text” : 'id' et 'annee').

  • chaque structure « sujet », au sein de chaque année, correspond à une ligne du tableau Excel

source. Cette structure « sujet » a pour propriétés certaines informations de colonnes « métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres informations « textuelles » de colonnes (voir plus bas)

  • chaque structure “sujet” a pour propriétés (métadonnées) les informations issues de la notice :
    • identifiantdelanotice
    • identifiantmaterielsinfo
    • genre
    • duree
    • datedediffusion
    • datedediffusionannee [les propriétés suivantes ont été extraites de la 'datedediffusion']
    • datedediffusionmois
    • datedediffusionjour
    • datedediffusionjoursemaine
    • n [numéro d'ordre de la diffusion dans l'année] [BP : ? semble vide.]
  • chaque structure “sujet” a pour sous-structures (contenus textuels) :
    • titrepropre
    • resume
    • descripteursafflig
    • descripteursaffcol
    • sequences

Chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un paragraphe (structure 'p').

Mais surtout, chaque champ de descripteur est composé d'éléments 'descripteur' avec un type valant DEI, DEL (plutôt des lieux), DET (plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres).

Retours

Retours sur cette première version, en vue de l'établissement d'une version ultérieure.

BP, 2 février 2018

Traitements lors de l'import

  • dates : années oui, mois peut-être, doutes sur utilité de jour et de jour de la semaine. Ajouter une date de diffusion pour disposer d'un tri chronologique via une seule métadonnée, type AAAAMMJJ ?
  • <descripteur> : génial !

ex.

 INDEX sur <descripteur>[_.descripteur_type="DEI"]</descripteur> 
ou sur
 <descripteur>[_.descripteur_type="DEI"]{2,}</descripteur> 
Mettre un point virgule pour séparer les différents descripteurs dans l'édition ?

  • possibilité d'aller à la ligne pour chaque tiret ou séquence de tirets dans <sequences> (et <resume>), voire de découper en <p> ou <item> selon les retours à la ligne des sources ? Les tirets ne sont pas toujours détachés, ex.

Identifiant de la notice : AFE01000301, Date de diffusion : 21/06/1951

  • La page de l'édition vise à correspondre au sujet, cf. documentation de la macro excel2xml. C'est commode.

Quelques observations sur le corpus

  • genres : tout est “presse filmée”, et une minorité de sujets sont quelque chose en plus (reportage, rétrospective, etc. → 5 catégories mineures, certaines quasi vides -déclaration et rétrospectives). → à observer en faisant une partition assistée sur sujet/genre et en ne créant que 5 classes en fonction du 2e genre.

Ce déséquilibre des genres fait que l'exploitation de la métadonnée sera sans doute très limitée pour les études contrastives.

  • titrepropre
    • Vue sur les titres répétés :
      INDEX de <titrepropre>[]+</titrepropre>
    • Vue sur les sujets dominants :
      INDEX de [] within titrepropre
    • Vue d'ensemble par AFC sur partition par année :
      INDEX de [] within titrepropre, Fmin=50
      TABLE LEXICALE marges = index
        suppression des lignes des mots grammaticaux, des mois, 
        "est"%c (majoritairement verbe), M Monsieur MONSIEUR,
        fusion des lignes égales modulo la casse
      AFC : l'effet diachronique semble plutôt sur l'axe 2
      macro CAFilter170323 -> plante et semble corrompre l'AFC, + impossible de recalculer l'AFC [essayer de reproduire ?]

À voir avec INA

  • amélioration du choix des éléments de texte et des métadonnées dans les rubriques des notices ?
    Notamment,
    • supprimer un des deux champs descripteurs ?
    • mettre aussi les descripteurs en métadonnées ? (ensembliste, un peu moins évident à l'usage)
    • meilleur identifiant pour faire le lien avec le fichier video ? (premier de “Identifiant Matériels (info.)” ?)
  • export plus précis sur Résumé/Séquences, qui distingue (sépare) mieux les deux ? En effet on retrouve des contenus de type Séquences dans des Résumés. (Sinon correction manuelle dans les xlsx avec repérage aidé par TXM ? → Non car 6000 occ./23114)
  • quelles indications donner pour pouvoir exploiter en édition synoptique les images des scans des tapuscrits du commentaire voix-off ? Genre :

sujet ↔ texte commentaire ↔ image(s) page(s)

JC, 6 juin 2018

  • utiliser le contenu du champ “Générique (Aff. Lig.)” comme métadonnée ou comme section textuelle ou les deux.
    • savoir quels opérateurs de prise de vue (OPV) était actif sur quelle période de temps
    • connaître les « participants » (PAR), c’est-à-dire souvent les personnes filmées
    • le champ « lien notice principale » permet d’associer les notices « sujet » (qui concernent un reportage) avec la notice « sommaire » qui décrit l’ensemble du programme.

Tutoriel

Le tutoriel a été produit et diffusé début avril. Il s'intitule “Tutoriel d’exploitation documentaire du corpus des Notices documentaires de l'AF avec TXM” et compte une dizaine de pages.

Le tutoriel introduit de façon minimaliste à TXM et aux exemples d'exploration suivants :

  • les notices évoquant « De Gaulle »
  • les notices évoquant « De Gaulle » et « Paolo Bertoli » ensemble
  • le décompte des différents types de plans utilisés dans les notices
  • les notices évoquant un plan moyen ou un gros plan de « De Gaulle »
  • le décompte des différents types de plans évoquant « De Gaulle »

Textes de Commentaires

Une première version du corpus des premiers OCR non vérifiés des commentaires dactylographiés ou typographiés, appelé AF-CMT-OCR-2-TT (Actualités Françaises - Commentaires - deuxième OCR - lemmatisé avec TreeTagger), a été réalisée.

Le corpus est structuré par les 34 fichiers chronologiques.

Le corpus source est au format TXT.

Le corpus est déposé dans sharedocs dans le répertoire 'ANTRACT/SP2 Corpus & Recherche technologique/TXM/Corpus OCR de commentaires'.

Retours

[SLH] si on avance sur ce corpus, il serait intéressant d'essayer de faire évoluer deux choses, en plus des résultats de l'OCR :

  • a) la relation entre le texte d'OCR des commentaires et les images de pages : pour cela il faudrait avoir une information de délimitation des textes entre les pages. Ça peut peut-être venir d'options du logiciel d'OCR : un fichier texte par image de page, un saut de page forcé par image de page, etc. à partir du moment où on peut lier le texte d'une image de page à cette image on peut alors produire une édition synoptique des textes qui affiche côte-à-côte le résultat d'OCR et l'image de la page, pour pouvoir identifier les zones d'image problématiques voire - dans certains cas - lire le texte dans l'image alors que l'OCR n'a rien trouvé. Un peu à l'image de cette édition synoptique du tour du monde en 80 jours hébergée dans notre portail TXM de démonstration : http://portal.textometrie.org/demo?command=edition&path=/TDM80J&textid=tdm80j&editions=facs,default&pageid=4
  • b) la relation entre le texte d'OCR des commentaires et les informations de sujets que nous avons par ailleurs. Cela supposerait de descendre au niveau des sujets dans les commentaires. C'est à dire de délimiter aux endroits marqués par des identifiants de sujets dans la marge. Par exemple 45003, 45004, 45005 etc. début 1945. À partir du moment où on pourrait établir cette liaison, on pourrait relier les textes et les métadonnées des notices sujets avec les textes des commentaires. Il faut bien sûr établir l'intérêt d'obtenir cela si on veut investir dans cette direction.

Corpus v1 (août 2018)

Introduction

Ce qui est prévu dans le descriptif du projet

Prévu comme livrable (2.3.a) au mois 9 (août 2018), dans l'idée de servir de corpus pour la formation TXM puis pour les premières analyses textométriques des historiens. Il doit également permettre de faire des retours utilisateurs pour orienter des développements de fonctionnalité et d'interface financés par le projet.

Il inclut non seulement les notices documentaires, mais aussi le “texte” des actualités françaises : le commentaire voix off.

Il est prévu qu'à cette date le commentaire soit disponible par l'OCR des images des pages du tapuscrit.

On se propose donc de produire un corpus avec :

  • les métadonnées issues des notices documentaires
  • une édition synoptique du texte de la voix off et de la page de tapuscrit correspondante.

Ce qui est réalisé

Le commentaire voix off peut venir en fait de deux sources :

  • Le projet prévoyait qu'à cette date serait disponible le commentaire tel que reconstitué à partir d'un OCR des images des tapuscrits : on dispose bien de premiers résultats d'OCR, mais ceux-ci semblent de médiocre qualité (il faudrait affiner le choix et le réglage des OCR) et de plus la correspondance entre les images des pages et les sujets des notices n'est pas faite (elle est envisagée plus tard, par un alignement avec la transcription).
  • En revanche dès fin mai 2018, le LIUM commence à livrer de premières transcriptions automatiques de la bande son, qui semblent fournir un texte de meilleure qualité, et bien découpé en sujets.

Par ailleurs, d'autres données non prévues commencent à être disponibles, on peut réfléchir à la faisabilité et l'intérêt de les intégrer :

  • reconnaissance de la musique ou des voix (en distinguant femme/homme)
  • des annotations des historiens sur la vidéo ? (envisagé mais pas du tout commencé encore, format encore indéfini, recueil peut-être via une interface INA, à voir)

Voix Off

Une première version du corpus composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises va être réalisée.

Le corpus source est au format XML Vocapia ou XML Transcriber.

La question se pose de pouvoir disposer, dès la première version de l'import des commentaires oraux, des métadonnées des notices documentaires. Idéalement, il serait intéressant aussi de pouvoir associer les parties textuelles des notices (en en faisant une autre partie du même texte ? On aurait : Titre, Résumé, Descripteurs, Séquences, Commentaire oral). Sinon, on peut avoir deux corpus : un des notices (avec les parties textuelles des notices), un des commentaires (avec les mêmes métadonnées que les notices). Pour le corpus v2 ou v3 la question pourra se poser d'aligner Séquences et Speech2text par les timecodes.

Retours


Corpus v2 (septembre 2019)

Introduction

Ce qui est prévu dans le descriptif du projet

Prévu comme livrable 2.3c) au mois 22 (septembre 2019), dans l'idée de profiter des premiers développements de TXM dans le cadre du projet, notamment la consolidation du retour à la vidéo depuis le commentaire speech2text timecodé, et peut-être la prise en compte de premiers retours utilisateurs.

Le corpus inclut donc :

  • les notices documentaires
  • le commentaire voix off
    • texte OCR - (alignement synoptique) → images du tapuscrit
    • le texte speech2text - (lien hypertexte) → vidéo

Ce qui est réalisé

Il faudra voir si la composante OCR+images est satisfaisante, du point de vue de la qualité du texte et de l'alignement sujets ↔ sections de texte ↔ images des pages.

Corpus v3 (mars 2020)

Introduction

Ce qui est prévu dans le descriptif du projet

Prévu au mois 28 (mars 2020) (pas vraiment de livrable sinon le 2.3d au mois 30, mais qui correspond plutôt au corpus v4, cf. ci-après), il intègre tous les volets disponibles pertinents synchronisés. Il bénéficie également des améliorations et enrichissements de TXM développés suite aux retours utilisateurs (livrable 2.7a, même mois = version beta des modules de TXM développés dans le projet).

Par rapport à la v2, il peut comporter par exemple les enrichissements suivants :

  • commentaires annotés en entités nommées
  • séquences timecodée
  • annotations sur la vidéo
  • etc.

Ce qui est réalisé

Corpus v4 (août 2020)

Introduction

Ce qui est prévu dans le descriptif du projet

Prévu au mois 33 (août 2020), c'est une mise-à-jour du corpus v3 avec les versions finales des différents volets (qui ont pu être améliorés sur la dernière période). Il bénéficie également des derniers correctifs sur le logiciel suite aux derniers retours utilisateurs (livrable 2.7b, au mois 32, juillet 2020).

A la fin du projet il y a deux versions du corpus (v3 et v4) pour un seul livrable Le livrable 2.3d (au mois 30, mai 2020) est le “corpus enrichi final”, pour TXM il est détaillé en corpus v3 et corpus v4 pour permettre une dernière boucle de retours utilisateurs et prévoir le travail d'intégration des toutes dernières versions des données avec la toute dernière version du logiciel (livrable 2.7b, au mois 32, juillet 2020).

Par rapport à la v2, il peut comporter par exemple les enrichissements suivants :

  • commentaires annotés en entités nommées
  • séquences timecodée
  • annotations sur la vidéo
  • etc.

Ce qui est réalisé


Retour à la liste des projets.

public/umr_chs_antract.txt · Dernière modification: 2018/07/04 12:55 par slh@ens-lyon.fr