Outils pour utilisateurs

Outils du site


public:umr_chs_antract

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:umr_chs_antract [2018/10/01 11:52]
benedicte.pincemin@ens-lyon.fr
public:umr_chs_antract [2018/10/05 15:50] (Version actuelle)
benedicte.pincemin@ens-lyon.fr
Ligne 64: Ligne 64:
 Une deuxième réalisation est un corpus TXM appelé AF-CMT-OCR-2-TT créé pour une expérimentation d'​import des OCR des commentaires,​ dans la première version de ceux-ci, pour avoir une idée de l'​exploitabilité -ou non- de ces documents dans l'​état de cette première version d'OCR (avant essais d'​amélioration). Une deuxième réalisation est un corpus TXM appelé AF-CMT-OCR-2-TT créé pour une expérimentation d'​import des OCR des commentaires,​ dans la première version de ceux-ci, pour avoir une idée de l'​exploitabilité -ou non- de ces documents dans l'​état de cette première version d'OCR (avant essais d'​amélioration).
  
-===== Notices documentaires =====+===== Corpus TXM des Notices documentaires =====
  
-==== Historique des versions ==== +  * une première version du [[:public:​antract:​antract_corpus_notices|Corpus TXM des Notices documentaires#​version_1]] a été réalisée.
- +
-Le binaire TXM utilisé pour la présentation du 30 janvier a été produit le 29. (Il faisait suite à une toute première ​version qui n'a servi qu'à le mettre au point.) +
- +
-Une seconde ​version du binaire a été produite le surlendemain de la réunion, 1er février, pour apporter tout de suite quelques améliorations : +
-  * l'​ajout de structures descripteur@type dans tous les champs ayant une forme de descripteur "DET : ... ;" +
-  * l'​ajout des propriétés *jour, *mois et *année sur les sujets (extraits de la date de diffusion), ainsi que le *jour de la semaine. +
-Le fichier correspondant (AFNOTICES-2018-02-01.txm) a été déposé dans sharedocs. +
- +
-==== Procédure d'​import ==== +
- +
-Le corpus source est au format Excel .xlsx. Une macro a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Un certain nombre de colonnes sont transformées en métadonnées et d'​autres en parties textuelles. +
- +
-Les macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) ont été publiées par Serge le 2 février 2018. La doc est à la place habituelle sur le  ​[[https://​groupes.renater.fr/​wiki/​txm-users/​public/​macros#​excel2xml_exceldir2xml|wiki txm-users, page de documentation ​des macros]]+
- +
-==== Composition et structure du corpus ==== +
- +
-Le corpus est structuré de la façon suivante : +
-  * chaque année (1945 à 1969) correspond à un texte (text) du corpus TXM et à son édition [de +
-texte] dont chaque page correspond à un sujet (l'​année est notée dans deux propriétés de la structure "​text"​ : '​id'​ et '​annee'​). +
-  * chaque structure « sujet », au sein de chaque année, correspond à une ligne du tableau Excel +
-source. Cette structure « sujet » pour propriétés certaines informations de colonnes +
-« métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres +
-informations « textuelles » de colonnes (voir plus bas) +
-  * chaque structure "​sujet"​ a pour propriétés (métadonnées) les informations issues de la notice : +
-    * identifiantdelanotice +
-    * identifiantmaterielsinfo +
-    * genre +
-    * duree +
-    * datedediffusion +
-    * datedediffusionannee [les propriétés suivantes ont été extraites de la '​datedediffusion'​] +
-    * datedediffusionmois +
-    * datedediffusionjour +
-    * datedediffusionjoursemaine +
-    * n [numéro d'​ordre de la diffusion dans l'​année] [BP : ? semble vide.] +
-  * chaque structure "​sujet"​ a pour sous-structures (contenus textuels) : +
-    * titrepropre +
-    * resume +
-    * descripteursafflig +
-    * descripteursaffcol +
-    * sequences +
- +
-Chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un paragraphe (structure '​p'​). +
- +
-Mais surtout, chaque champ de descripteur est composé d'​éléments '​descripteur'​ avec un type valant DEI, DEL (plutôt des lieux), DET (plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres). +
- +
-==== Retours ==== +
- +
-Retours sur cette première version, en vue de l'​établissement d'une version ultérieure. +
- +
-=== BP, 2 février 2018 == +
- +
-**Traitements lors de l'​import** +
- +
-  * dates : années oui, mois peut-être, doutes sur utilité de jour et de jour de la semaine. Ajouter une date de diffusion pour disposer d'un tri chronologique via une seule métadonnée,​ type AAAAMMJJ ? +
-  * <​descripteur>​ : génial ! +
-ex. <​code>​ INDEX sur <​descripteur>​[_.descripteur_type="​DEI"​]</​descripteur>​ </​code>​ +
-ou sur +
-<​code>​ <​descripteur>​[_.descripteur_type="​DEI"​]{2,​}</​descripteur>​ </​code>​ +
-Mettre un point virgule pour séparer les différents descripteurs dans l'​édition ? +
-  * possibilité d'​aller à la ligne pour chaque tiret ou séquence de tirets dans <​sequences>​ (et <​resume>​),​ voire de découper en <p> ou <​item>​ selon les retours à la ligne des sources ? Les tirets ne sont pas toujours détachés, ex. +
-Identifiant de la notice : AFE01000301,​ Date de diffusion : 21/​06/​1951 +
-  * La page de l'​édition vise à correspondre au sujet, cf. documentation de la macro excel2xml. C'est commode. +
- +
-**Quelques observations sur le corpus** +
- +
-  * genres : tout est "​presse filmée",​ et une minorité de sujets sont quelque chose en plus (reportage, rétrospective,​ etc. -> 5 catégories mineures, certaines quasi vides -déclaration et rétrospectives). -> à observer en faisant une partition assistée sur sujet/genre et en ne créant que 5 classes en fonction du 2e genre. +
-Ce déséquilibre des genres fait que l'​exploitation de la métadonnée sera sans doute très limitée pour les études contrastives. +
-  * titrepropre +
-    * Vue sur les titres répétés :<​code>​INDEX de <​titrepropre>​[]+</​titrepropre></​code>​ +
-    * Vue sur les sujets dominants :<​code>​INDEX de [] within titrepropre</​code>​ +
-    * Vue d'​ensemble par AFC sur partition par année :<​code>​INDEX de [] within titrepropre,​ Fmin=50 +
-TABLE LEXICALE marges = index +
-  suppression des lignes des mots grammaticaux,​ des mois,  +
-  "​est"​%c (majoritairement verbe), M Monsieur MONSIEUR, +
-  fusion des lignes égales modulo la casse +
-AFC : l'​effet diachronique semble plutôt sur l'axe 2 +
-macro CAFilter170323 -> plante et semble corrompre l'AFC, + impossible de recalculer l'AFC [essayer de reproduire ?​]</​code>​ +
- +
-**À voir avec INA** +
- +
-  * amélioration du choix des éléments de texte et des métadonnées dans les rubriques des notices ?\\ Notamment,​ +
-    * supprimer un des deux champs descripteurs ? +
-    * mettre aussi les descripteurs en métadonnées ? (ensembliste,​ un peu moins évident à l'​usage) +
-    * meilleur identifiant pour faire le lien avec le fichier video ? (premier de "​Identifiant Matériels (info.)"​ ?) +
-  * export plus précis sur Résumé/​Séquences,​ qui distingue (sépare) mieux les deux ? En effet on retrouve des contenus de type Séquences dans des Résumés. (Sinon correction manuelle dans les xlsx avec repérage aidé par TXM ? -> Non car 6000 occ./​23114) +
-  * quelles indications donner pour pouvoir exploiter en édition synoptique les images des scans des tapuscrits du commentaire voix-off ? Genre : +
-sujet <-> texte commentaire <-> image(s) page(s) +
- +
-=== JC, 6 juin 2018 === +
- +
-  * utiliser le contenu du champ "​Générique (Aff. Lig.)" comme métadonnée ou comme section textuelle ou les deux. +
-    * savoir quels opérateurs de prise de vue (OPV) était actif sur quelle période de temps +
-    * connaître les « participants » (PAR), c’est-à-dire souvent les personnes filmées +
-  * utiliser le champ « lien notice principale » permettrait d’associer les notices « sujet » (qui concernent un reportage) avec la notice « sommaire » qui décrit l’ensemble du programme.+
  
 ===== Tutoriel ===== ===== Tutoriel =====
Ligne 219: Ligne 125:
 ===== Voix Off ===== ===== Voix Off =====
  
-==== Introduction ====+  * une première version du [[:​public:​antract:​antract_corpus_voixoff|Corpus TXM des transcriptions speech2text de la voix off]] a été réalisée.
  
-Une première version d'un corpus TXM appelé AFOFF composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises est en cours d'​élaboration. 
- 
-=== Choix des sources === 
- 
-Le corpus source est au format XML Vocapia ou XML Transcriber. 
- 
-Remarques : 
-  * TXM ne peut pas importer le format XML Vocapia directement 
-  * le Transcriber ne contient pas d'​informations au niveau du mot (comme le Vocapia) 
- 
-== Solution 1 : intégrer les informations au niveau du mot dans le Transcriber == 
- 
--> une demande est en cours pour intégrer les informations au niveau du mot dans la sortie Transcriber 
- 
-== Solution 2 : importer le XML Vocapia == 
- 
--> suppose le développement d'un nouveau module d'​import. Un prototype d'​import Vocapia a été réalisé dans le cadre de Matrice. Il faut préciser son niveau de développement et son statut. 
- 
-=== Métadonnées === 
- 
-La question se pose de pouvoir disposer, dès la première version de l'​import des transcriptions de voix off, des métadonnées des notices documentaires sujets. 
- 
-== Solution 1 == 
- 
-L'​unité documentaire "​transcription"​ correspond au sujet INA. Cela est compatible avec l'​architecture d'​import de TXM actuelle. 
- 
--> une demande est en cours pour produire les transcriptions au niveau du sujet 
- 
-== Solution 2 == 
- 
-Une table de fichiers + synchronisation des sujets est utilisée pour : 
-  * délimiter les sujets : séparer ou fusionner des fichiers 
-  * associer les métadonnées sujet aux transcriptions : au niveau des fichiers 
- 
--> suppose un développement en amont de l'​import 
- 
-=== Combinaison de données par alignement au niveau sujet === 
- 
-Idéalement,​ il serait intéressant de pouvoir associer les parties textuelles des notices avec la voix off pour le travail d'​analyse 
- 
-Les analyses types correspondantes seraient : 
- 
-== Analyse combinante 1 == 
- 
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans le résumé ou dans la séquence d'une notice 
-    * je construis le sous-corpus de la voix off ... 
-  * je calcule les mots spécifiques du sous-corpus de la voix off limité à ces sujets. 
- 
-== Analyse combinante 2 == 
- 
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans la notice sujet  et ne contenant pas "​Brigitte Bardot"​ dans la voix off 
-  * je lis la voix off correspondante 
-  * ou bien je calcule les mots spécifiques de ce sous-corpus,​ pour identifier par quoi le terme aurait éventuellement été souvent remplacé 
- 
-== Solutions dans TXM == 
- 
-Trois solutions possibles à court terme : 
- 
-1) En en faisant une autre partie du même texte 
- 
-On aurait : Titre, Résumé, Descripteurs,​ Séquences, Transcriptions de voix off. 
- 
--> l'​édition est potentiellement mixte : écrite + transcription 
--> la tokenisation est mixte 
- 
-2) Sinon, on peut avoir deux corpus : 
-  * un des notices (avec les parties textuelles des notices) 
-  * un des commentaires (avec les mêmes métadonnées que les notices) 
- 
--> on réalise soi-même l'​alignement dans des requêtes ad hoc 
- 
-3) Sinon, on peut avoir deux corpus alignés au niveau du sujet : 
-  * un des notices (avec les parties textuelles des notices) 
-  * un des commentaires (avec les mêmes métadonnées que les notices) 
- 
-=== Synchronisation === 
- 
-Pour l'​étape corpus v2 ou v3 la question pourra se poser d'​aligner Séquences et voix off par les timecodes. ​ 
- 
-==== Retours ==== 
- 
-\\  
  
 ===== Notices documentaires : nouvelle version du corpus TXM ===== ===== Notices documentaires : nouvelle version du corpus TXM =====
  
-==== Historique des versions ==== +  * une seconde ​version du [[:public:antract:antract_corpus_notices|Corpus ​TXM des Notices documentaires#​version_2]] a été réalisée.
- +
-La première version du corpus des notices documentaires avait été réalisée pour permettre d'​illustrer les possibilités de la démarche textométrique lors de la réunion de lancement en janvier 2018. +
- +
-Il s'agit ici de réaliser ​une version ​moins "​improvisée"​ et notamment intégrant les retours et l'​expertise de l'INA sur les métadonnées disponibles et leur usage potentiel dans le projet. +
- +
-Cette nouvelle version permet d'​exploiter la richesse ​du catalogage INA et prépare la conception d'un corpus plus intégré, qui articule directement plusieurs modalités. +
- +
-==== Procédure d'​import ==== +
- +
-Le principe général est le même qu'en janvier 2018 : le corpus source est au format Excel .xlsx. Une macro a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Un certain nombre de colonnes sont transformées en métadonnées et d'​autres en parties textuelles. +
- +
-On se base sur une évolution des macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) qui ont été publiées par Serge le 2 février 2018, et dont la doc est à la place habituelle sur le  ​[[https://​groupes.renater.fr/​wiki/​txm-users/​public/​macros#​excel2xml_exceldir2xml|wiki txm-users, page de documentation des macros]]. +
- +
-Les évolutions concernent ​: +
- +
-  * le remplacement de certaines métadonnées ​: +
-    * identifiantmaterielsinfo ("​Identifiant Matériels (info.)"​) remplacé par nomfichiersegmente ("Nom fichier segmenté (info)"​) et materielsdetail ("​Matériels (Détail)"​) +
-  * la suppression de certaines métadonnées : +
-    * n [numéro d'​ordre de la diffusion dans l'​année] : était vide en pratique. +
-  * l'​ajout de nouvelles métadonnées : +
-    * datedediffusiontri (AAAA-MM-JJ) (calculée comme datedediffusionannee etc.) +
-    * typedenotice +
-    * liennoticeprincipale +
-    * notesdutitre +
-    * langue : valeur du champ "​Langue VO / VE" +
-    * naturedeproduction +
-    * producteurs : voir si on peut parser pour structurer le contenu en : producteurnom,​ producteursigle,​ producteurlieu,​ producteurannee +
-    * typededate +
-  * l'​évolution de certains contenus textuels : +
-    * on ne garde qu'un des deux champs descripteurs (entre descripteursafflig et descripteursaffcol : le contenu est le même, c'est simplement la présentation qui change, il suffit d'​utiliser la plus commode à exploiter) +
-    * si possible, gérer les retours à la ligne dans les champs Résumé et Séquences pour construire des paragraphes ou items de liste (quand cela commence par un tiret) et pour anticiper la tokenisation +
-  * l'​ajout de nouveaux contenus textuels +
-    * generique : chaque participant est défini par une structure '​participant'​ avec une propriete '​role'​ reprenant les codes de rôles (PAR, DIR, OPV, SCE, etc.). +
- +
-Dans la v1 du corpus ​TXM notices, chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un et un seul paragraphe (structure '​p'​) : il faut voir si on peut utiliser les retours-chariot présents dans les colonnes Résumé et Séquences du fichier Excel pour construire ​des paragraphes (ou des items de liste, lorsqu'​on commence par un tiret). +
- +
-Il serait intéressant aussi de pouvoir enrichir l'​édition : +
-  * rendre compte du découpage des éléments et de leur type dans les champs structurés (descripteurs,​ générique,​ producteurs) ; +
-  * afficher en paragraphes ou items de liste les sauts de ligne dans les champs Résumé et Séquences (mais la question est surtout déjà au niveau du codage, si c'est codé l'​affichage devrait être simplifié). +
- +
-==== Composition et structure du corpus ==== +
- +
-Le corpus est structuré de la façon suivante : +
-  * chaque année (1945 à 1969) correspond à un texte (text) du corpus TXM et à son édition [de textedont chaque page correspond à un sujet (l'​année est notée dans deux propriétés de la structure "​text"​ : '​id'​ et '​annee'​). +
-  * chaque structure « sujet », au sein de chaque année, correspond à une ligne du tableau Excel source. Cette structure « sujet » pour propriétés certaines informations de colonnes « métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres informations « textuelles » de colonnes (voir plus bas) +
-  * chaque structure "​sujet"​ a pour propriétés (métadonnées) les informations issues de la notice : +
-    * identifiantdelanotice +
-    * nomfichiersegmente +
-    * materielsdetail +
-    * typedenotice +
-    * liennoticeprincipale : permet de consulter le sommaire de l'​édition +
-    * datedediffusion : JJ/MM/AAAA [les propriétés suivantes ont été extraites de cette métadonnée :] +
-    * datedediffusionannee : AAAA +
-    * datedediffusionmois : MM +
-    * datedediffusionjour : JJ +
-    * datedediffusionjoursemaine : lundi, mardi, etc. +
-    * datedediffusiontri : AAAA-MM-JJ +
-    * typededate +
-    * notesdutitre +
-    * genre +
-    * duree +
-    * langue +
-    * naturedeproduction +
-    * producteurs : chaque producteur est composé de producteurnom,​ producteursigle,​ producteurlieu,​ producteurannee +
-    * thematique +
-  * chaque structure "​sujet"​ a pour sous-structures (contenus textuels) : +
-    * titrepropre +
-    * resume +
-    * sequences +
-    * descripteurs : chaque descripteur est défini par une structure '​descripteur'​ avec un type valant DEI ("​image"​),​ DEL ("​localisé"​),​ DET ("​thématique"​ - plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres) +
-    * generique : chaque participant est défini par une structure '​participant'​ avec une propriete '​role'​ reprenant les codes de rôles (PAR, DIR, OPV, SCE, etc.). +
- +
-==== Retours ==== +
- +
-=== Pré-retours,​ BP 1er octobre, suite à réunion avec JC 28 septembre === +
- +
-Le champ "​Matériels (Détails)"​ est très (trop) complet, il indique tous les supports matériels où se trouve le sujet. Pour une prochaine fois, JC pourrait produire une information plus ciblée où l'on ne trouve que le matériel de rang 1, à savoir celui que l'on privilégie. +
- +
-On observe aussi que la notice principale n'a pas de champ dans lequel retrouver le sommaire de la livraison ; quand ce sommaire est donné dans InaMediaPro,​ il doit être calculé automatiquement à partir des liens aux notices sujet. (Mais nous n'​avons pas parlé de l'​ordre des sujets entre eux, il n'est pas évident s'il est déterminé avec les informations que nous avons). +
- +
-Dans l'​examen des camps des notices documentaires INA potentiellement exploitables,​ nous avons noté quelques champs "pour mémoire"​ : leur pertinence n'est pas évidente pour l'​analyse,​ mais ils seraient éventuellement à reconsidérer lors d'un 3e import éventuel, à l'aune des retours d'​expérience sur cette v2. Ces champs d'​intérêt potentiel / à voir sont : +
-  * Corpus (Aff.) : donne des indications thématiques,​ mais l'​usage est surtout commercial ; on a déjà des descripteurs,​ et on va expérimenter le champ Thématique. Si on devait exploiter ce champ, il faudrait voir si on garde ou si on transforme les chevrons (pour la facilité d'​interrogation). +
-  * Mandat de l'​émission +
-  +
-En revanche, on a vu avec JC que les champs suivants ne sont a priori pas pertinents : +
-  * Statut de numérisation +
-  * Témoin niv. de catalog. validé, Témoin niv. d'​indexation validé (et d'une façon générale les autres traces de suivi du traitement documentaire,​ on n'a pas bien les connaissances pour en tirer profit et ce n'est pas dans les préoccupations du projet) +
- +
-Enfin, les descripteurs sont issus d'un thesaurus, à réfléchir si ces relations peuvent ouvrir des perspectives intéressantes.+
  
  
public/umr_chs_antract.1538387531.txt.gz · Dernière modification: 2018/10/01 11:52 par benedicte.pincemin@ens-lyon.fr