Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_voixoff_v01

Corpus TXM des transcriptions speech2text de la voix off (commentaires) des Actualités Françaises

Les métadonnées se trouvent dans les fichiers Excel des notices documentaires. Les fichiers se trouvent dans sharedocs :

https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF
davs://sharedocs.huma-num.fr/dav.php/@Shares/(2139)%20ANR/(7000)%20ANTRACT/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF

Version 1

Spécifications

Métadonnées

La question se pose de pouvoir disposer, dès la première version de l'import des transcriptions de voix off, des métadonnées des notices documentaires sujets.

Pour cela, la solution la plus simple serait que l'unité documentaire “transcription” corresponde au sujet INA, alors cela serait compatible avec l'architecture d'import de TXM actuelle.

JC a produit un découpage des vidéos au niveau du sujet, avec des fichiers nommés par leur identifiant de notice.

Cela permet au speech2text de générer des transcriptions de même, au niveau des sujets, avec l'identifiant de la notice.

Spécifications

Composition des métadonnées

L'idée générale est de s'appuyer sur le travail de sélection et organisation fait pour le corpus des notices documentaires : https://groupes.renater.fr/wiki/txm-users/public/antract/antract_corpus_notices#version_22

Dans un premier temps, si besoin, on peut fonctionner sans les métadonnées reconstruites (les diverses variations de représentation de la date de diffusion).

Gestion du volume et des bugs des données

On peut écarter un certain nombre de fichiers :

  • Problèmes de segmentation de certains fichiers (en gros au dessus de 8000 octets du .trs)
  • Vidéos muettes (en gros en dessous de 660 octets du .trs).
  • Langue étrangère transcrite en français : s'appuyer sur la colonne Langue VO / VE du fichier excel des notices ?

Développement des corpus

Import des fichiers .trs avec métadonnées.

On utilise les fichiers .trs de la version 0.

Choix des transcriptions

Les transcriptions ne contenant aucun mot plantent la production d'éditions dans l'import Transcriber + CSV de TXM 0.7.91). Ces 2895 trancriptions sont donc retirées du corpus.

Pour obtenir leur liste :

egrep -c '^[^<].+$' *.trs|grep :0|tr '\n' ',' | sed -e 's/.trs:0//g' -e 's/,/, /g'>/tmp/out

Préparation des métadonnées

Une nouvelle macro appellée MergeExcelDir a été développée pour fusionner les tableaux de métadonnées par années de l'INA.

Elle normalise les noms des colonnes (option normalizeIdentifiers).

Elle traite les valeurs multiples (option multipleValues), séparées par des “ ; ”, en les recodant en '|val1|val2|…|“ (voir par exemple le retour sur la prise en compte des opérateurs, colonne Générique (Aff. Lig.))

La macro est appelée sur les données de l'INA avec les paramètres suivants :

  • columnList =
    Identifiant de la notice,Nom fichier segmenté (info),Type de notice,Lien notice principale,Date de diffusion,Type de date,Notes du titre ,Genre,Durée,Langue VO / VE ,Nature de production ,Producteurs (Aff.),Thématique,Titre propre,Résumé,Séquences,Descripteurs (Aff. Lig.),Générique (Aff. Lig.) 
  • multipleValues =
    Descripteurs (Aff. Lig.),Générique (Aff. Lig.) 

Attention : bien noter l'espace à la fin du nom de certaines colonnes.

Le tableau de métadonnées résultant est composé de 23 115 lignes.

Gestion des fichiers vidéo

Les fichiers vidéos ne font pas partie des sources (trop lourds).

Après import ou chargement, il faut créer un lien dynamique du corpus vers le répertoire de fichiers vidéos pour que le retour au média fonctionne :

ln -s /media/sheiden/TXM-ANTRACT/181011/vis_sujet ~/TXM/corpora/AFVOIXOFFV01/media

Fichiers du corpus

  • afvoixoff-0.1-src.zip : sources sans les vidéos
  • AFVOIXOFFV01.txm : binaire sans les vidéos

Recettes

Retours

BP, 2019-05-06

L'association des métadonnées au corpus change vraiment le rapport au corpus et permet de mieux comprendre son contenu, notamment ce qui concerne les recouvrements/doublons de vidéos, cf. observations notées un peu plus bas.

La V0.1 du 26 avril 20129 présente deux difficultés ou bugs à corriger :

1) le tableau de métadonnées comporte des guillemets doubles, qui sont mal gérés lors de l'import (cf. retours d'Alice Brenon fin 2018, et ticket Bug #2471 - RCP: 0.7.9, quote error in metadata projection in XML files. Une solution dans l'immédiat serait de supprimer ou remplacer (par ex. par un guillemet simple/apostrophe ?) les guillemets des métadonnées.

2) Un caractère invisible (?) s'intercale entre le type et la valeur de chaque descripteur dans la propriété descripteursafflig, on l'observe par exemple en faisant les requêtes suivantes :

<text>[_.text_descripteursafflig=".*DEL.*"] -> des résultats
<text>[_.text_descripteursafflig=".*DEL:.*"] -> des résultats
<text>[_.text_descripteursafflig=".*DEL: .*"] -> des résultats
<text>[_.text_descripteursafflig=".*DEL: P.*"] -> plus rien
<text>[_.text_descripteursafflig=".*DEL: Pologne.*"] -> (rien non plus a fortiori)
<text>[_.text_descripteursafflig=".*DEL: .P.*"%c] -> des résultats

Supprimer ce caractère ou/et voir si le traitement du champ “descripteurs (aff. col.)” (dont le contenu est normalement identique) serait plus simple ?

D'autres évolutions sont envisageables (à moyen terme) pour faciliter l'exploitation chronologique :

  • possibilité de coder la date en AAAA-MM-JJ ?
  • possibilité d'ordonner le corpus par date ? (Progressions)

Autres observations :

  • intérêt a priori de la structuration en liste des descripteurs et génériques (interrogeables avec l'opérateur contains qui simplifie la syntaxe des requêtes)
  • modèle de langue TreeTagger = français parlé
    • dans les notices documentaires on a un autre modèle (l'habituel), il faudra que les utilisateurs d'Antract comprennent et arrivent à gérer les différences d'étiquettes ;
    • [frppos = “NAM”] manifestement inutilisable (en grande partie faute de majuscules dans les sources sans doute ?)

Première étude des recouvrements/doublons/reprises dans le corpus (grâce aux métadonnées)

  • Notices sommaires = concaténation dans le bon ordre des vidéos du numéro.
  • Certains sujets renvoient à une vidéo plus longue, dans le cas que j'ai observé AFE85008611, AFE85008612, AFE85008613 sont trois moments successifs d'une même unité vidéo mais le fichier vidéo associé est présenté dans son entier.
  • En cherchant un autre cas, je m'aperçois que des sujets composites analogues ne sont pas présents dans le corpus. Par exemple dans le sommaire AFE86004869 il y a plusieurs sujets qui sont composés, par exemple :
    • La rentrée des classes à Paris AFE85005278 + L'école clandestine de Beaunotte AFE85005279, ou encore
    • Un jeune aveugle sténo dactylo AFE85005281 + UN APPAREIL DE VISION ARTIFICIELLE AFE85005282

Or ces sujets n'apparaissent pas dans le corpus (sauf AFE85005282), ni dans la recherche inamediapro à cette date (8 octobre 1953), dans inamediapro on n'y accède que via le sommaire.

On a donc :

  • des redondances entre sommaires et sujets contenus
  • des redondances entre (sous-)sujets (~chapitres) à l'intérieur d'une même unité (sujet) vidéo
  • On a aussi des lacunes dans les sujets, avec des sujets qu'on ne retrouve que dans les sommaires globaux.
  • Les notices isolées rendent compte de sujets d'éditions régionales, qu'on ne retrouve pas dans les notices sommaires.
1)
théoriquement ce ne sera plus le cas dans TXM 0.8.0
public/antract/antract_corpus_voixoff_v01.txt · Dernière modification: 2020/10/12 15:09 par matthieu.decorde@ens-lyon.fr