Ceci est une ancienne révision du document !
Cette page recense les différentes discussions autour de projets d'analyse de corpus du laboratoire CHS et d'autres partenaires avec TXM.
Elle doit servir à faire la liaison entre IHRIM et CHS et au suivi des développements de solutions.
Dans la mesure où cette page est pour l'instant publique, il est intéressant de veiller à ne pas trop désigner de personnes et de projets trop détaillés ou explicites.
Le projet ANR Antract travaille sur le corpus des 1 262 journaux des Actualités Françaises qui ont été diffusés du 4 janvier 1945 au 25 février 1969.
Le corpus est constitué de journaux quotidiens qui se divisent en sujets.
Le partenariat est composé de :
Le projet travaille à partir de plusieurs types de sources :
Les problématiques scientifiques sont en cours d'établissement, en lien avec les outils premmettant de faire les analyses.
Dans le cadre de l'analyse textométrique, on s'intéresse de prime abord aux modalités textuelles du corpus.
Différentes étapes d'élaboration du corpus sont prévues :
Ce qui est prévu dans le descriptif du projet
Rien à ce stade !
Il s'agit d'une initiative de l'IHRIM, non prévue dans le document de projet (pas de livrable).
Ce qui est réalisé
La première réalisation est un corpus TXM appelé AFNOTICES qui a été créé pour illustrer les possibilités de l'outil à la réunion de lancement, le 30 janvier 2018 à Paris. Elle a porté sur des données déjà mises à disposition par l'INA : les notices documentaires.
En complément, en avril 2018 , pour permettre aux participants d'exploiter eux-mêmes le corpus sans attendre la formation TXM de l'automne, et qu'ils puissent ainsi trouver directement des réponses à leurs questions documentaires, Serge a rédigé et diffusé un petit tutoriel pas-à-pas d'exploitation du corpus des Notices des AF avec TXM.
Le corpus TXM des Notices et le tutoriel se trouvent dans sharedocs à l'adresse : ANTRACT/SP2 Corpus & Recherche technologique/TXM/Corpus notices documentaires.
Une deuxième réalisation est un corpus TXM appelé AF-CMT-OCR-2-TT créé pour une expérimentation d'import des OCR des commentaires, dans la première version de ceux-ci, pour avoir une idée de l'exploitabilité -ou non- de ces documents dans l'état de cette première version d'OCR (avant essais d'amélioration).
Le binaire TXM utilisé pour la présentation du 30 janvier a été produit le 29. (Il faisait suite à une toute première version qui n'a servi qu'à le mettre au point.)
Une seconde version du binaire a été produite le surlendemain de la réunion, 1er février, pour apporter tout de suite quelques améliorations :
Le fichier correspondant (AFNOTICES-2018-02-01.txm) a été déposé dans sharedocs.
Le corpus source est au format Excel .xlsx. Une macro a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Un certain nombre de colonnes sont transformées en métadonnées et d'autres en parties textuelles.
Les macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) ont été publiées par Serge le 2 février 2018. La doc est à la place habituelle sur le wiki txm-users, page de documentation des macros.
Le corpus est structuré de la façon suivante :
texte] dont chaque page correspond à un sujet (l'année est notée dans deux propriétés de la structure “text” : 'id' et 'annee').
source. Cette structure « sujet » a pour propriétés certaines informations de colonnes « métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres informations « textuelles » de colonnes (voir plus bas)
Chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un paragraphe (structure 'p').
Mais surtout, chaque champ de descripteur est composé d'éléments 'descripteur' avec un type valant DEI, DEL (plutôt des lieux), DET (plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres).
Retours sur cette première version, en vue de l'établissement d'une version ultérieure.
Traitements lors de l'import
ex.
INDEX sur <descripteur>[_.descripteur_type="DEI"]</descripteur>
ou sur
<descripteur>[_.descripteur_type="DEI"]{2,}</descripteur>
Mettre un point virgule pour séparer les différents descripteurs dans l'édition ?
Identifiant de la notice : AFE01000301, Date de diffusion : 21/06/1951
Quelques observations sur le corpus
Ce déséquilibre des genres fait que l'exploitation de la métadonnée sera sans doute très limitée pour les études contrastives.
INDEX de <titrepropre>[]+</titrepropre>
INDEX de [] within titrepropre
INDEX de [] within titrepropre, Fmin=50 TABLE LEXICALE marges = index suppression des lignes des mots grammaticaux, des mois, "est"%c (majoritairement verbe), M Monsieur MONSIEUR, fusion des lignes égales modulo la casse AFC : l'effet diachronique semble plutôt sur l'axe 2 macro CAFilter170323 -> plante et semble corrompre l'AFC, + impossible de recalculer l'AFC [essayer de reproduire ?]
À voir avec INA
sujet ↔ texte commentaire ↔ image(s) page(s)
Le tutoriel a été produit et diffusé début avril. Il s'intitule “Tutoriel d’exploitation documentaire du corpus des Notices documentaires de l'AF avec TXM” et compte une dizaine de pages.
Le tutoriel introduit de façon minimaliste à TXM et aux exemples d'exploration suivants :
Les textes de commentaires sont des documents papier dactylographiés ou imprimés établis avant (pour préparer la lecture des commentaires - voix off ?) ou après (pour rendre compte des commentaires - voix off ?) la publication d'une édition des AF.
Une première version d'un corpus TXM des premiers OCR non vérifiés des commentaires dactylographiés ou typographiés, appelé AF-CMT-OCR-2-TT (Actualités Françaises - Commentaires - deuxième OCR - lemmatisé avec TreeTagger), a été réalisée.
Le corpus est structuré par les 34 fichiers chronologiques.
Le corpus source est au format TXT.
Le corpus est déposé dans sharedocs dans le répertoire 'ANTRACT/SP2 Corpus & Recherche technologique/TXM/Corpus OCR de commentaires'.
[SLH] si on avance sur ce corpus, il serait intéressant d'essayer de faire évoluer deux choses, en plus des résultats de l'OCR :
Ce qui est prévu dans le descriptif du projet
Prévu comme livrable (2.3.a) au mois 9 (août 2018), dans l'idée de servir de corpus pour la formation TXM puis pour les premières analyses textométriques des historiens. Il doit également permettre de faire des retours utilisateurs pour orienter des développements de fonctionnalité et d'interface financés par le projet.
Il inclut non seulement les notices documentaires, mais aussi le “texte” des actualités françaises : le commentaire voix off.
Il est prévu qu'à cette date le commentaire soit disponible par l'OCR des images des pages du tapuscrit.
On se propose donc de produire un corpus avec :
Ce qui est réalisé
Le commentaire voix off peut venir en fait de deux sources :
Par ailleurs, d'autres données non prévues commencent à être disponibles, on peut réfléchir à la faisabilité et l'intérêt de les intégrer :
Une première version d'un corpus TXM appelé AFOFF composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises est en cours d'élaboration.
Le corpus source est au format XML Vocapia ou XML Transcriber.
Remarques :
→ une demande est en cours pour intégrer les informations au niveau du mot dans la sortie Transcriber
→ suppose le développement d'un nouveau module d'import. Un prototype d'import Vocapia a été réalisé dans le cadre de Matrice. Il faut préciser son niveau de développement et son statut.
La question se pose de pouvoir disposer, dès la première version de l'import des transcriptions de voix off, des métadonnées des notices documentaires sujets.
L'unité documentaire “transcription” correspond au sujet INA. Cela est compatible avec l'architecture d'import de TXM actuelle.
→ une demande est en cours pour produire les transcriptions au niveau du sujet
Une table de fichiers + synchronisation des sujets est utilisée pour :
→ suppose un développement en amont de l'import
Idéalement, il serait intéressant de pouvoir associer les parties textuelles des notices avec la voix off pour le travail d'analyse
Les analyses types correspondantes seraient :
Trois solutions possibles à court terme :
1) En en faisant une autre partie du même texte
On aurait : Titre, Résumé, Descripteurs, Séquences, Transcriptions de voix off.
→ l'édition est potentiellement mixte : écrite + transcription → la tokenisation est mixte
2) Sinon, on peut avoir deux corpus :
→ on réalise soi-même l'alignement dans des requêtes ad hoc
3) Sinon, on peut avoir deux corpus alignés au niveau du sujet :
Pour l'étape corpus v2 ou v3 la question pourra se poser d'aligner Séquences et voix off par les timecodes.
La première version du corpus des notices documentaires avait été réalisée pour permettre d'illustrer les possibilités de la démarche textométrique lors de la réunion de lancement en janvier 2018.
Il s'agit ici de réaliser une version moins “improvisée” et notamment intégrant les retours et l'expertise de l'INA sur les métadonnées disponibles et leur usage potentiel dans le projet.
Cette nouvelle version permet d'exploiter la richesse du catalogage INA et prépare la conception d'un corpus plus intégré, qui articule directement plusieurs modalités.
Le principe général est le même qu'en janvier 2018 : le corpus source est au format Excel .xlsx. Une macro a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Un certain nombre de colonnes sont transformées en métadonnées et d'autres en parties textuelles.
On se base sur une évolution des macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) qui ont été publiées par Serge le 2 février 2018, et dont la doc est à la place habituelle sur le wiki txm-users, page de documentation des macros.
Le corpus est structuré de la façon suivante :
Chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un paragraphe (structure 'p').
Mais surtout, chaque champ de descripteur est composé d'éléments 'descripteur' avec un type valant DEI, DEL (plutôt des lieux), DET (plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres).
Retours sur cette première version, en vue de l'établissement d'une version ultérieure.
Traitements lors de l'import
ex.
INDEX sur <descripteur>[_.descripteur_type="DEI"]</descripteur>
ou sur
<descripteur>[_.descripteur_type="DEI"]{2,}</descripteur>
Mettre un point virgule pour séparer les différents descripteurs dans l'édition ?
Identifiant de la notice : AFE01000301, Date de diffusion : 21/06/1951
Quelques observations sur le corpus
Ce déséquilibre des genres fait que l'exploitation de la métadonnée sera sans doute très limitée pour les études contrastives.
INDEX de <titrepropre>[]+</titrepropre>
INDEX de [] within titrepropre
INDEX de [] within titrepropre, Fmin=50 TABLE LEXICALE marges = index suppression des lignes des mots grammaticaux, des mois, "est"%c (majoritairement verbe), M Monsieur MONSIEUR, fusion des lignes égales modulo la casse AFC : l'effet diachronique semble plutôt sur l'axe 2 macro CAFilter170323 -> plante et semble corrompre l'AFC, + impossible de recalculer l'AFC [essayer de reproduire ?]
À voir avec INA
sujet ↔ texte commentaire ↔ image(s) page(s)
Ce qui est prévu dans le descriptif du projet
Prévu comme livrable 2.3c) au mois 22 (septembre 2019), dans l'idée de profiter des premiers développements de TXM dans le cadre du projet, notamment la consolidation du retour à la vidéo depuis le commentaire speech2text timecodé, et peut-être la prise en compte de premiers retours utilisateurs.
Le corpus inclut donc :
Ce qui est réalisé
Il faudra voir si la composante OCR+images est satisfaisante, du point de vue de la qualité du texte et de l'alignement sujets ↔ sections de texte ↔ images des pages.
Ce qui est prévu dans le descriptif du projet
Prévu au mois 28 (mars 2020) (pas vraiment de livrable sinon le 2.3d au mois 30, mais qui correspond plutôt au corpus v4, cf. ci-après), il intègre tous les volets disponibles pertinents synchronisés. Il bénéficie également des améliorations et enrichissements de TXM développés suite aux retours utilisateurs (livrable 2.7a, même mois = version beta des modules de TXM développés dans le projet).
Par rapport à la v2, il peut comporter par exemple les enrichissements suivants :
Ce qui est réalisé
Ce qui est prévu dans le descriptif du projet
Prévu au mois 33 (août 2020), c'est une mise-à-jour du corpus v3 avec les versions finales des différents volets (qui ont pu être améliorés sur la dernière période). Il bénéficie également des derniers correctifs sur le logiciel suite aux derniers retours utilisateurs (livrable 2.7b, au mois 32, juillet 2020).
Par rapport à la v2, il peut comporter par exemple les enrichissements suivants :
Ce qui est réalisé