Outils pour utilisateurs

Outils du site


public:umr_chs_antract

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:umr_chs_antract [2018/09/28 14:35]
benedicte.pincemin@ens-lyon.fr
public:umr_chs_antract [2018/10/05 15:50] (Version actuelle)
benedicte.pincemin@ens-lyon.fr
Ligne 64: Ligne 64:
 Une deuxième réalisation est un corpus TXM appelé AF-CMT-OCR-2-TT créé pour une expérimentation d'​import des OCR des commentaires,​ dans la première version de ceux-ci, pour avoir une idée de l'​exploitabilité -ou non- de ces documents dans l'​état de cette première version d'OCR (avant essais d'​amélioration). Une deuxième réalisation est un corpus TXM appelé AF-CMT-OCR-2-TT créé pour une expérimentation d'​import des OCR des commentaires,​ dans la première version de ceux-ci, pour avoir une idée de l'​exploitabilité -ou non- de ces documents dans l'​état de cette première version d'OCR (avant essais d'​amélioration).
  
-===== Notices documentaires =====+===== Corpus TXM des Notices documentaires =====
  
-==== Historique des versions ==== +  * une première version du [[:public:​antract:​antract_corpus_notices|Corpus TXM des Notices documentaires#​version_1]] a été réalisée.
- +
-Le binaire TXM utilisé pour la présentation du 30 janvier a été produit le 29. (Il faisait suite à une toute première ​version qui n'a servi qu'à le mettre au point.) +
- +
-Une seconde ​version du binaire a été produite le surlendemain de la réunion, 1er février, pour apporter tout de suite quelques améliorations : +
-  * l'​ajout de structures descripteur@type dans tous les champs ayant une forme de descripteur "DET : ... ;" +
-  * l'​ajout des propriétés *jour, *mois et *année sur les sujets (extraits de la date de diffusion), ainsi que le *jour de la semaine. +
-Le fichier correspondant (AFNOTICES-2018-02-01.txm) a été déposé dans sharedocs. +
- +
-==== Procédure d'​import ==== +
- +
-Le corpus source est au format Excel .xlsx. Une macro a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Un certain nombre de colonnes sont transformées en métadonnées et d'​autres en parties textuelles. +
- +
-Les macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) ont été publiées par Serge le 2 février 2018. La doc est à la place habituelle sur le  ​[[https://​groupes.renater.fr/​wiki/​txm-users/​public/​macros#​excel2xml_exceldir2xml|wiki txm-users, page de documentation ​des macros]]+
- +
-==== Composition et structure du corpus ==== +
- +
-Le corpus est structuré de la façon suivante : +
-  * chaque année (1945 à 1969) correspond à un texte (text) du corpus TXM et à son édition [de +
-texte] dont chaque page correspond à un sujet (l'​année est notée dans deux propriétés de la structure "​text"​ : '​id'​ et '​annee'​). +
-  * chaque structure « sujet », au sein de chaque année, correspond à une ligne du tableau Excel +
-source. Cette structure « sujet » pour propriétés certaines informations de colonnes +
-« métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres +
-informations « textuelles » de colonnes (voir plus bas) +
-  * chaque structure "​sujet"​ a pour propriétés (métadonnées) les informations issues de la notice : +
-    * identifiantdelanotice +
-    * identifiantmaterielsinfo +
-    * genre +
-    * duree +
-    * datedediffusion +
-    * datedediffusionannee [les propriétés suivantes ont été extraites de la '​datedediffusion'​] +
-    * datedediffusionmois +
-    * datedediffusionjour +
-    * datedediffusionjoursemaine +
-    * n [numéro d'​ordre de la diffusion dans l'​année] [BP : ? semble vide.] +
-  * chaque structure "​sujet"​ a pour sous-structures (contenus textuels) : +
-    * titrepropre +
-    * resume +
-    * descripteursafflig +
-    * descripteursaffcol +
-    * sequences +
- +
-Chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un paragraphe (structure '​p'​). +
- +
-Mais surtout, chaque champ de descripteur est composé d'​éléments '​descripteur'​ avec un type valant DEI, DEL (plutôt des lieux), DET (plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres). +
- +
-==== Retours ==== +
- +
-Retours sur cette première version, en vue de l'​établissement d'une version ultérieure. +
- +
-=== BP, 2 février 2018 == +
- +
-**Traitements lors de l'​import** +
- +
-  * dates : années oui, mois peut-être, doutes sur utilité de jour et de jour de la semaine. Ajouter une date de diffusion pour disposer d'un tri chronologique via une seule métadonnée,​ type AAAAMMJJ ? +
-  * <​descripteur>​ : génial ! +
-ex. <​code>​ INDEX sur <​descripteur>​[_.descripteur_type="​DEI"​]</​descripteur>​ </​code>​ +
-ou sur +
-<​code>​ <​descripteur>​[_.descripteur_type="​DEI"​]{2,​}</​descripteur>​ </​code>​ +
-Mettre un point virgule pour séparer les différents descripteurs dans l'​édition ? +
-  * possibilité d'​aller à la ligne pour chaque tiret ou séquence de tirets dans <​sequences>​ (et <​resume>​),​ voire de découper en <p> ou <​item>​ selon les retours à la ligne des sources ? Les tirets ne sont pas toujours détachés, ex. +
-Identifiant de la notice : AFE01000301,​ Date de diffusion : 21/​06/​1951 +
-  * La page de l'​édition vise à correspondre au sujet, cf. documentation de la macro excel2xml. C'est commode. +
- +
-**Quelques observations sur le corpus** +
- +
-  * genres : tout est "​presse filmée",​ et une minorité de sujets sont quelque chose en plus (reportage, rétrospective,​ etc. -> 5 catégories mineures, certaines quasi vides -déclaration et rétrospectives). -> à observer en faisant une partition assistée sur sujet/genre et en ne créant que 5 classes en fonction du 2e genre. +
-Ce déséquilibre des genres fait que l'​exploitation de la métadonnée sera sans doute très limitée pour les études contrastives. +
-  * titrepropre +
-    * Vue sur les titres répétés :<​code>​INDEX de <​titrepropre>​[]+</​titrepropre></​code>​ +
-    * Vue sur les sujets dominants :<​code>​INDEX de [] within titrepropre</​code>​ +
-    * Vue d'​ensemble par AFC sur partition par année :<​code>​INDEX de [] within titrepropre,​ Fmin=50 +
-TABLE LEXICALE marges = index +
-  suppression des lignes des mots grammaticaux,​ des mois,  +
-  "​est"​%c (majoritairement verbe), M Monsieur MONSIEUR, +
-  fusion des lignes égales modulo la casse +
-AFC : l'​effet diachronique semble plutôt sur l'axe 2 +
-macro CAFilter170323 -> plante et semble corrompre l'AFC, + impossible de recalculer l'AFC [essayer de reproduire ?​]</​code>​ +
- +
-**À voir avec INA** +
- +
-  * amélioration du choix des éléments de texte et des métadonnées dans les rubriques des notices ?\\ Notamment,​ +
-    * supprimer un des deux champs descripteurs ? +
-    * mettre aussi les descripteurs en métadonnées ? (ensembliste,​ un peu moins évident à l'​usage) +
-    * meilleur identifiant pour faire le lien avec le fichier video ? (premier de "​Identifiant Matériels (info.)"​ ?) +
-  * export plus précis sur Résumé/​Séquences,​ qui distingue (sépare) mieux les deux ? En effet on retrouve des contenus de type Séquences dans des Résumés. (Sinon correction manuelle dans les xlsx avec repérage aidé par TXM ? -> Non car 6000 occ./​23114) +
-  * quelles indications donner pour pouvoir exploiter en édition synoptique les images des scans des tapuscrits du commentaire voix-off ? Genre : +
-sujet <-> texte commentaire <-> image(s) page(s) +
- +
-=== JC, 6 juin 2018 === +
- +
-  * utiliser le contenu du champ "​Générique (Aff. Lig.)" comme métadonnée ou comme section textuelle ou les deux. +
-    * savoir quels opérateurs de prise de vue (OPV) était actif sur quelle période de temps +
-    * connaître les « participants » (PAR), c’est-à-dire souvent les personnes filmées +
-  * utiliser le champ « lien notice principale » permettrait d’associer les notices « sujet » (qui concernent un reportage) avec la notice « sommaire » qui décrit l’ensemble du programme.+
  
 ===== Tutoriel ===== ===== Tutoriel =====
Ligne 219: Ligne 125:
 ===== Voix Off ===== ===== Voix Off =====
  
-==== Introduction ====+  * une première version du [[:​public:​antract:​antract_corpus_voixoff|Corpus TXM des transcriptions speech2text de la voix off]] a été réalisée.
  
-Une première version d'un corpus TXM appelé AFOFF composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises est en cours d'​élaboration. 
- 
-=== Choix des sources === 
- 
-Le corpus source est au format XML Vocapia ou XML Transcriber. 
- 
-Remarques : 
-  * TXM ne peut pas importer le format XML Vocapia directement 
-  * le Transcriber ne contient pas d'​informations au niveau du mot (comme le Vocapia) 
- 
-== Solution 1 : intégrer les informations au niveau du mot dans le Transcriber == 
- 
--> une demande est en cours pour intégrer les informations au niveau du mot dans la sortie Transcriber 
- 
-== Solution 2 : importer le XML Vocapia == 
- 
--> suppose le développement d'un nouveau module d'​import. Un prototype d'​import Vocapia a été réalisé dans le cadre de Matrice. Il faut préciser son niveau de développement et son statut. 
- 
-=== Métadonnées === 
- 
-La question se pose de pouvoir disposer, dès la première version de l'​import des transcriptions de voix off, des métadonnées des notices documentaires sujets. 
- 
-== Solution 1 == 
- 
-L'​unité documentaire "​transcription"​ correspond au sujet INA. Cela est compatible avec l'​architecture d'​import de TXM actuelle. 
- 
--> une demande est en cours pour produire les transcriptions au niveau du sujet 
- 
-== Solution 2 == 
- 
-Une table de fichiers + synchronisation des sujets est utilisée pour : 
-  * délimiter les sujets : séparer ou fusionner des fichiers 
-  * associer les métadonnées sujet aux transcriptions : au niveau des fichiers 
- 
--> suppose un développement en amont de l'​import 
- 
-=== Combinaison de données par alignement au niveau sujet === 
- 
-Idéalement,​ il serait intéressant de pouvoir associer les parties textuelles des notices avec la voix off pour le travail d'​analyse 
- 
-Les analyses types correspondantes seraient : 
- 
-== Analyse combinante 1 == 
- 
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans le résumé ou dans la séquence d'une notice 
-    * je construis le sous-corpus de la voix off ... 
-  * je calcule les mots spécifiques du sous-corpus de la voix off limité à ces sujets. 
- 
-== Analyse combinante 2 == 
- 
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans la notice sujet  et ne contenant pas "​Brigitte Bardot"​ dans la voix off 
-  * je lis la voix off correspondante 
-  * ou bien je calcule les mots spécifiques de ce sous-corpus,​ pour identifier par quoi le terme aurait éventuellement été souvent remplacé 
- 
-== Solutions dans TXM == 
- 
-Trois solutions possibles à court terme : 
- 
-1) En en faisant une autre partie du même texte 
- 
-On aurait : Titre, Résumé, Descripteurs,​ Séquences, Transcriptions de voix off. 
- 
--> l'​édition est potentiellement mixte : écrite + transcription 
--> la tokenisation est mixte 
- 
-2) Sinon, on peut avoir deux corpus : 
-  * un des notices (avec les parties textuelles des notices) 
-  * un des commentaires (avec les mêmes métadonnées que les notices) 
- 
--> on réalise soi-même l'​alignement dans des requêtes ad hoc 
- 
-3) Sinon, on peut avoir deux corpus alignés au niveau du sujet : 
-  * un des notices (avec les parties textuelles des notices) 
-  * un des commentaires (avec les mêmes métadonnées que les notices) 
- 
-=== Synchronisation === 
- 
-Pour l'​étape corpus v2 ou v3 la question pourra se poser d'​aligner Séquences et voix off par les timecodes. ​ 
- 
-==== Retours ==== 
- 
-\\  
  
 ===== Notices documentaires : nouvelle version du corpus TXM ===== ===== Notices documentaires : nouvelle version du corpus TXM =====
  
-==== Historique des versions ==== +  * une seconde ​version du [[:public:​antract:​antract_corpus_notices|Corpus TXM des Notices documentaires#​version_2]] a été réalisée.
- +
-La première version du corpus des notices documentaires avait été réalisée pour permettre d'​illustrer les possibilités de la démarche textométrique lors de la réunion de lancement en janvier 2018. +
- +
-Il s'agit ici de réaliser ​une version ​moins "​improvisée"​ et notamment intégrant les retours et l'​expertise de l'INA sur les métadonnées disponibles et leur usage potentiel dans le projet. +
- +
-Cette nouvelle version permet d'​exploiter la richesse ​du catalogage INA et prépare la conception d'un corpus plus intégré, qui articule directement plusieurs modalités. +
- +
-==== Procédure d'​import ==== +
- +
-Le principe général est le même qu'en janvier 2018 : le corpus source est au format Excel .xlsx. Une macro a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Un certain nombre de colonnes sont transformées en métadonnées et d'​autres en parties textuelles. +
- +
-On se base sur une évolution des macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) qui ont été publiées par Serge le 2 février 2018, et dont la doc est à la place habituelle sur le  ​[[https://​groupes.renater.fr/​wiki/​txm-users/​public/​macros#​excel2xml_exceldir2xml|wiki txm-users, page de documentation ​des macros]]+
- +
-==== Composition et structure du corpus ==== +
- +
-Le corpus est structuré de la façon suivante : +
-  * chaque année (1945 à 1969) correspond à un texte (text) du corpus TXM et à son édition [de texte] dont chaque page correspond à un sujet (l'​année est notée dans deux propriétés de la structure "​text"​ : '​id'​ et '​annee'​). +
-  * chaque structure « sujet », au sein de chaque année, correspond à une ligne du tableau Excel source. Cette structure « sujet » pour propriétés certaines informations de colonnes « métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres informations « textuelles » de colonnes (voir plus bas) +
-  * chaque structure "​sujet"​ a pour propriétés (métadonnées) les informations issues de la notice : +
-    * identifiantdelanotice +
-    * identifiantmaterielsinfo +
-    * genre +
-    * duree +
-    * datedediffusion +
-    * datedediffusionannee [les propriétés suivantes ont été extraites de la '​datedediffusion'​] +
-    * datedediffusionmois +
-    * datedediffusionjour +
-    * datedediffusionjoursemaine +
-    * n [numéro d'​ordre de la diffusion dans l'​année] [BP : ? semble vide.] +
-  * chaque structure "​sujet"​ a pour sous-structures (contenus textuels) : +
-    * titrepropre +
-    * resume +
-    * descripteursafflig +
-    * descripteursaffcol +
-    * sequences +
- +
-Chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un paragraphe (structure '​p'​). +
- +
-Mais surtout, chaque champ de descripteur est composé d'​éléments '​descripteur'​ avec un type valant DEI, DEL (plutôt des lieux), DET (plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres). +
- +
-==== Retours ==== +
- +
-Retours sur cette première version, en vue de l'​établissement d'une version ultérieure. +
- +
-=== BP, 2 février 2018 == +
- +
-**Traitements lors de l'​import** +
- +
-  * dates : années oui, mois peut-être, doutes sur utilité de jour et de jour de la semaine. Ajouter une date de diffusion pour disposer d'un tri chronologique via une seule métadonnée,​ type AAAAMMJJ ? +
-  * <​descripteur>​ : génial ! +
-ex. <​code>​ INDEX sur <​descripteur>​[_.descripteur_type="​DEI"​]</​descripteur>​ </​code>​ +
-ou sur +
-<​code>​ <​descripteur>​[_.descripteur_type="​DEI"​]{2,​}</​descripteur>​ </​code>​ +
-Mettre un point virgule pour séparer les différents descripteurs dans l'​édition ? +
-  * possibilité d'​aller à la ligne pour chaque tiret ou séquence de tirets dans <​sequences>​ (et <​resume>​),​ voire de découper en <p> ou <​item>​ selon les retours à la ligne des sources ? Les tirets ne sont pas toujours détachés, ex. +
-Identifiant de la notice : AFE01000301,​ Date de diffusion : 21/​06/​1951 +
-  * La page de l'​édition vise à correspondre au sujet, cf. documentation de la macro excel2xml. C'est commode. +
- +
-**Quelques observations sur le corpus** +
- +
-  * genres : tout est "​presse filmée",​ et une minorité de sujets sont quelque chose en plus (reportage, rétrospective,​ etc. -> 5 catégories mineures, certaines quasi vides -déclaration et rétrospectives). -> à observer en faisant une partition assistée sur sujet/genre et en ne créant que 5 classes en fonction du 2e genre. +
-Ce déséquilibre des genres fait que l'​exploitation de la métadonnée sera sans doute très limitée pour les études contrastives. +
-  * titrepropre +
-    * Vue sur les titres répétés :<​code>​INDEX de <​titrepropre>​[]+</​titrepropre></​code>​ +
-    * Vue sur les sujets dominants :<​code>​INDEX de [] within titrepropre</​code>​ +
-    * Vue d'​ensemble par AFC sur partition par année :<​code>​INDEX de [] within titrepropre,​ Fmin=50 +
-TABLE LEXICALE marges = index +
-  suppression des lignes des mots grammaticaux,​ des mois,  +
-  "​est"​%c (majoritairement verbe), M Monsieur MONSIEUR, +
-  fusion des lignes égales modulo la casse +
-AFC : l'​effet diachronique semble plutôt sur l'axe 2 +
-macro CAFilter170323 -> plante et semble corrompre l'AFC, + impossible de recalculer l'AFC [essayer de reproduire ?​]</​code>​ +
- +
-**À voir avec INA** +
- +
-  * amélioration du choix des éléments de texte et des métadonnées dans les rubriques des notices ?\\ Notamment,​ +
-    * supprimer un des deux champs descripteurs ? +
-    * mettre aussi les descripteurs en métadonnées ? (ensembliste,​ un peu moins évident à l'​usage) +
-    * meilleur identifiant pour faire le lien avec le fichier video ? (premier de "​Identifiant Matériels (info.)"​ ?) +
-  * export plus précis sur Résumé/​Séquences,​ qui distingue (sépare) mieux les deux ? En effet on retrouve des contenus de type Séquences dans des Résumés. (Sinon correction manuelle dans les xlsx avec repérage aidé par TXM ? -> Non car 6000 occ./​23114) +
-  * quelles indications donner pour pouvoir exploiter en édition synoptique les images des scans des tapuscrits du commentaire voix-off ? Genre : +
-sujet <-> texte commentaire <-> image(s) page(s) +
- +
-=== JC, 6 juin 2018 === +
- +
-  * utiliser le contenu du champ "​Générique (Aff. Lig.)" comme métadonnée ou comme section textuelle ou les deux. +
-    * savoir quels opérateurs de prise de vue (OPV) était actif sur quelle période de temps +
-    * connaître les « participants » (PAR), c’est-à-dire souvent les personnes filmées +
-  * utiliser le champ « lien notice principale » permettrait d’associer les notices « sujet » (qui concernent un reportage) avec la notice « sommaire » qui décrit l’ensemble du programme.+
  
  
public/umr_chs_antract.1538138124.txt.gz · Dernière modification: 2018/09/28 14:35 par benedicte.pincemin@ens-lyon.fr