Outils pour utilisateurs

Outils du site


public:umr_chs_antract

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:umr_chs_antract [2018/10/01 18:37]
slh@ens-lyon.fr
public:umr_chs_antract [2018/10/05 15:50] (Version actuelle)
benedicte.pincemin@ens-lyon.fr
Ligne 125: Ligne 125:
 ===== Voix Off ===== ===== Voix Off =====
  
-==== Introduction ====+  * une première version du [[:​public:​antract:​antract_corpus_voixoff|Corpus TXM des transcriptions speech2text de la voix off]] a été réalisée.
  
-Une première version d'un corpus TXM appelé AFOFF composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises est en cours d'​élaboration. 
- 
-=== Choix des sources === 
- 
-Le corpus source est au format XML Vocapia ou XML Transcriber. 
- 
-Remarques : 
-  * TXM ne peut pas importer le format XML Vocapia directement 
-  * le Transcriber ne contient pas d'​informations au niveau du mot (comme le Vocapia) 
- 
-== Solution 1 : intégrer les informations au niveau du mot dans le Transcriber == 
- 
--> une demande est en cours pour intégrer les informations au niveau du mot dans la sortie Transcriber 
- 
-== Solution 2 : importer le XML Vocapia == 
- 
--> suppose le développement d'un nouveau module d'​import. Un prototype d'​import Vocapia a été réalisé dans le cadre de Matrice. Il faut préciser son niveau de développement et son statut. 
- 
-=== Métadonnées === 
- 
-La question se pose de pouvoir disposer, dès la première version de l'​import des transcriptions de voix off, des métadonnées des notices documentaires sujets. 
- 
-== Solution 1 == 
- 
-L'​unité documentaire "​transcription"​ correspond au sujet INA. Cela est compatible avec l'​architecture d'​import de TXM actuelle. 
- 
--> une demande est en cours pour produire les transcriptions au niveau du sujet 
- 
-== Solution 2 == 
- 
-Une table de fichiers + synchronisation des sujets est utilisée pour : 
-  * délimiter les sujets : séparer ou fusionner des fichiers 
-  * associer les métadonnées sujet aux transcriptions : au niveau des fichiers 
- 
--> suppose un développement en amont de l'​import 
- 
-=== Combinaison de données par alignement au niveau sujet === 
- 
-Idéalement,​ il serait intéressant de pouvoir associer les parties textuelles des notices avec la voix off pour le travail d'​analyse 
- 
-Les analyses types correspondantes seraient : 
- 
-== Analyse combinante 1 == 
- 
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans le résumé ou dans la séquence d'une notice 
-    * je construis le sous-corpus de la voix off ... 
-  * je calcule les mots spécifiques du sous-corpus de la voix off limité à ces sujets. 
- 
-== Analyse combinante 2 == 
- 
-  * je sélectionne les sujets contenant "​Brigitte Bardot"​ dans la notice sujet  et ne contenant pas "​Brigitte Bardot"​ dans la voix off 
-  * je lis la voix off correspondante 
-  * ou bien je calcule les mots spécifiques de ce sous-corpus,​ pour identifier par quoi le terme aurait éventuellement été souvent remplacé 
- 
-== Solutions dans TXM == 
- 
-Trois solutions possibles à court terme : 
- 
-1) En en faisant une autre partie du même texte 
- 
-On aurait : Titre, Résumé, Descripteurs,​ Séquences, Transcriptions de voix off. 
- 
--> l'​édition est potentiellement mixte : écrite + transcription 
--> la tokenisation est mixte 
- 
-2) Sinon, on peut avoir deux corpus : 
-  * un des notices (avec les parties textuelles des notices) 
-  * un des commentaires (avec les mêmes métadonnées que les notices) 
- 
--> on réalise soi-même l'​alignement dans des requêtes ad hoc 
- 
-3) Sinon, on peut avoir deux corpus alignés au niveau du sujet : 
-  * un des notices (avec les parties textuelles des notices) 
-  * un des commentaires (avec les mêmes métadonnées que les notices) 
- 
-=== Synchronisation === 
- 
-Pour l'​étape corpus v2 ou v3 la question pourra se poser d'​aligner Séquences et voix off par les timecodes. ​ 
- 
-==== Retours ==== 
- 
-\\  
  
 ===== Notices documentaires : nouvelle version du corpus TXM ===== ===== Notices documentaires : nouvelle version du corpus TXM =====
  
-==== Historique des versions ==== +  * une seconde ​version du [[:public:antract:antract_corpus_notices|Corpus ​TXM des Notices documentaires#​version_2]] a été réalisée.
- +
-La première version du corpus des notices documentaires avait été réalisée pour permettre d'​illustrer les possibilités de la démarche textométrique lors de la réunion de lancement en janvier 2018. +
- +
-Il s'agit ici de réaliser ​une version ​moins "​improvisée"​ et notamment intégrant les retours et l'​expertise de l'INA sur les métadonnées disponibles et leur usage potentiel dans le projet. +
- +
-Cette nouvelle version permet d'​exploiter la richesse ​du catalogage INA et prépare la conception d'un corpus plus intégré, qui articule directement plusieurs modalités. +
- +
-==== Procédure d'​import ==== +
- +
-Le principe général est le même qu'en janvier 2018 : le corpus source est au format Excel .xlsx. Une macro a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Un certain nombre de colonnes sont transformées en métadonnées et d'​autres en parties textuelles. +
- +
-On se base sur une évolution des macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) qui ont été publiées par Serge le 2 février 2018, et dont la doc est à la place habituelle sur le  ​[[https://​groupes.renater.fr/​wiki/​txm-users/​public/​macros#​excel2xml_exceldir2xml|wiki txm-users, page de documentation des macros]]. +
- +
-Les évolutions concernent ​: +
- +
-  * le remplacement de certaines métadonnées ​: +
-    * identifiantmaterielsinfo ("​Identifiant Matériels (info.)"​) remplacé par nomfichiersegmente ("Nom fichier segmenté (info)"​) et materielsdetail ("​Matériels (Détail)"​) +
-  * la suppression de certaines métadonnées : +
-    * n [numéro d'​ordre de la diffusion dans l'​année] : était vide en pratique. +
-  * l'​ajout de nouvelles métadonnées : +
-    * datedediffusiontri (AAAA-MM-JJ) (c'est une métadonnée //​calculée//​ à partir des notices, comme datedediffusionannee etc.) +
-    * typedenotice +
-    * liennoticeprincipale +
-    * notesdutitre +
-    * langue : valeur du champ "​Langue VO / VE" +
-    * naturedeproduction +
-    * producteurs : il serait tentant de structurer le contenu en : producteurnom,​ producteursigle,​ producteurlieu,​ producteurannee,​ mais à première vue ce n'est pas évident car il peut y avoir plusieurs producteurs,​ ou/et des organismes qui jouent d'​autres rôles (diffuseur, éditeur, organisateur de sepctacle, etc.) +
-    * thematique +
-    * typededate (issu de "Type de date" ou "Type de date (info.)"​ qui sont a priori de contenu identique - les champs "​(info.)"​ corespondent à une information à afficher) +
-  * l'​évolution de certains contenus textuels : +
-    * on ne garde qu'un des deux champs descripteurs (entre descripteursafflig et descripteursaffcol : le contenu est le même, c'est simplement la présentation qui change, il suffit d'​utiliser la plus commode à exploiter) +
-    * si possible, gérer les retours à la ligne dans les champs Résumé et Séquences pour construire des paragraphes ou items de liste (quand cela commence par un tiret) et pour anticiper la tokenisation +
-  * l'​ajout de nouveaux contenus textuels +
-    * generique : chaque participant est défini par une structure '​participant'​ avec une propriete '​role'​ reprenant les codes de rôles (PAR, DIR, OPV, SCE, etc.). +
- +
-Dans la v1 du corpus ​TXM notices, chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un et un seul paragraphe (structure '​p'​) : il faut voir si on peut utiliser les retours-chariot présents dans les colonnes Résumé et Séquences du fichier Excel pour construire ​des paragraphes (ou des items de liste, lorsqu'​on commence par un tiret). +
- +
-Il serait intéressant aussi de pouvoir enrichir l'​édition : +
-  * rendre compte du découpage des éléments et de leur type dans les champs structurés (descripteurs,​ générique,​ producteurs) ; +
-  * afficher en paragraphes ou items de liste les sauts de ligne dans les champs Résumé et Séquences (mais la question est surtout déjà au niveau du codage, si c'est codé l'​affichage devrait être simplifié). +
- +
-==== Composition et structure du corpus ==== +
- +
-Le corpus est structuré de la façon suivante : +
-  * chaque année (1945 à 1969) correspond à un texte (text) du corpus TXM et à son édition [de textedont chaque page correspond à un sujet (l'​année est notée dans deux propriétés de la structure "​text"​ : '​id'​ et '​annee'​). +
-  * chaque structure « sujet », au sein de chaque année, correspond à une ligne du tableau Excel source. Cette structure « sujet » pour propriétés certaines informations de colonnes « métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres informations « textuelles » de colonnes (voir plus bas) +
-  * chaque structure "​sujet"​ a pour propriétés (métadonnées) les informations issues de la notice : +
-    * identifiantdelanotice +
-    * nomfichiersegmente +
-    * materielsdetail +
-    * typedenotice +
-    * liennoticeprincipale : permet de consulter le sommaire de l'​édition +
-    * datedediffusion : JJ/MM/AAAA [les propriétés suivantes ont été extraites de cette métadonnée :] +
-    * datedediffusionannee : AAAA +
-    * datedediffusionmois : MM +
-    * datedediffusionjour : JJ +
-    * datedediffusionjoursemaine : lundi, mardi, etc. +
-    * datedediffusiontri : AAAA-MM-JJ +
-    * typededate +
-    * notesdutitre +
-    * genre +
-    * duree +
-    * langue +
-    * naturedeproduction +
-    * producteurs +
-    * thematique +
-  * chaque structure "​sujet"​ a pour sous-structures (contenus textuels) : +
-    * titrepropre +
-    * resume +
-    * sequences +
-    * descripteurs : chaque descripteur est défini par une structure '​descripteur'​ avec un type valant DEI ("​image"​),​ DEL ("​localisé"​),​ DET ("​thématique"​ - plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres) +
-    * generique : chaque participant est défini par une structure '​participant'​ avec une propriete '​role'​ reprenant les codes de rôles (PAR, DIR, OPV, SCE, etc.). +
- +
-==== Retours ==== +
- +
-=== Pré-retours,​ BP 1er octobre, suite à réunion avec JC 28 septembre === +
- +
-Le champ "​Matériels (Détails)"​ est très (trop) complet, il indique tous les supports matériels où se trouve le sujet. Pour une prochaine fois, JC pourrait produire une information plus ciblée où l'on ne trouve que le matériel de rang 1, à savoir celui que l'on privilégie. +
- +
-On observe aussi que la notice principale n'a pas de champ dans lequel retrouver le sommaire de la livraison ; quand ce sommaire est donné dans InaMediaPro,​ il doit être calculé automatiquement à partir des liens aux notices sujet. (Mais nous n'​avons pas parlé de l'​ordre des sujets entre eux, il n'est pas évident s'il est déterminé avec les informations que nous avons). +
- +
-Dans l'​examen des camps des notices documentaires INA potentiellement exploitables,​ nous avons noté quelques champs "pour mémoire"​ : leur pertinence n'est pas évidente pour l'​analyse,​ mais ils seraient éventuellement à reconsidérer lors d'un 3e import éventuel, à l'aune des retours d'​expérience sur cette v2. Ces champs d'​intérêt potentiel / à voir sont : +
-  * Corpus (Aff.) : donne des indications thématiques,​ mais l'​usage est surtout commercial ; on a déjà des descripteurs,​ et on va expérimenter le champ Thématique. Si on devait exploiter ce champ, il faudrait voir si on garde ou si on transforme les chevrons (pour la facilité d'​interrogation). +
-  * Mandat de l'​émission +
-  * Notes : contenu très (trop ?) variable ; il faudrait voir quelle exploitation on pourrait en faire dans TXM (gros index peu utile ?). +
-  * Notes juridiques : intérêt possible pour les recherches Antract, mais intérêt à réfléchir dans le cadre d'un usage textométrique. +
-  +
-En revanche, on a vu avec JC que les champs suivants ne sont a priori pas pertinents : +
-  * Statut de numérisation +
-  * Témoin niv. de catalog. validé, Témoin niv. d'​indexation validé (et d'une façon générale les autres traces de suivi du traitement documentaire,​ on n'a pas bien les connaissances pour en tirer profit et ce n'est pas dans les préoccupations du projet) +
- +
-Enfin, les descripteurs sont issus d'un thesaurus, à réfléchir si ces relations peuvent ouvrir des perspectives intéressantes.+
  
  
public/umr_chs_antract.1538411833.txt.gz · Dernière modification: 2018/10/01 18:37 par slh@ens-lyon.fr