Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_voixoff

Corpus TXM des transcriptions speech2text de la voix off des Actualités Françaises

Historique des versions

Version 0

Une première version d'un corpus TXM sans métadonnées appelé AFVOIXOFFSUJ composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises segmentées par sujets a été réalisée en octobre 2018.

Il a été déposé sur sharedocs dans :

https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/TXM/Corpus/Corpus%20voixoff

Le répertoire contient :

  • AFVOIXOFFSUJ.txm : le corpus binaire
  • afvoixoffsuj-src.zip : l'archive du répertoire source

Spécification des sources et de l'Import

  • les métadonnées se trouvent dans les fichiers Excel des notices documentaires. Les fichiers se trouvent dans sharedocs :
    https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF
    davs://sharedocs.huma-num.fr/dav.php/@Shares/(2139)%20ANR/(7000)%20ANTRACT/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF

Version 1

Métadonnées

La question se pose de pouvoir disposer, dès la première version de l'import des transcriptions de voix off, des métadonnées des notices documentaires sujets.

Pour cela, la solution la plus simple serait que l'unité documentaire “transcription” corresponde au sujet INA, alors cela serait compatible avec l'architecture d'import de TXM actuelle.

JC a produit un découpage des vidéos au niveau du sujet, avec des fichiers nommés par leur identifiant de notice.

Cela permet au speech2text de générer des transcriptions de même, au niveau des sujets, avec l'identifiant de la notice.

Spécifications

Composition des métadonnées

L'idée générale est de s'appuyer sur le travail de sélection et organisation fait pour le corpus des notices documentaires : https://groupes.renater.fr/wiki/txm-users/public/antract/antract_corpus_notices#version_22

Dans un premier temps, si besoin, on peut fonctionner sans les métadonnées reconstruites (les diverses variations de représentation de la date de diffusion).

En attendant de développer une solution qui permettrait de gérer plusieurs textes en parallèle dans le même corpus (en particulier séquences et transcriptions de la voix-off), il devrait y avoir un intérêt à disposer de certains contenus textuels de la notice en en faisant des métadonnées du corpus de la voix off. Il est difficile de savoir où s'arrêter (quelles données suffiraient, quelles données sont vraiment utiles et exploitables en métadonnées), je (BP) propose donc un ordre du plus prioritaire au moins prioritaire :

  • 1. titrepropre : seule métadonnée “textuelle” qui s'impose clairement
  • 2. descripteurs : reprise brute de descripteursafflig ?
  • 3. generique : reprise brute de generiqueafflig ?
  • 4. resume : généralement soit plus court que séquences, soit seul rempli (avec un contenu +/- de séquences)
  • 5. sequences : champ qui peut être le plus long donc le moins adapté à devenir métadonnée ; mais aussi champ sur lequel les interrogations croisées avec la transcription seraient particulièrement intéressantes (mise en relation de ce qu'on voit -séquences- et ce qu'on dit -voix off-).

Combinaison de données par alignement au niveau sujet

Idéalement, il serait intéressant de pouvoir associer les parties textuelles des notices avec la voix off pour le travail d'analyse

Les analyses types correspondantes seraient :

Analyse combinante 1

  • je sélectionne les sujets contenant “Brigitte Bardot” dans le résumé ou dans la séquence d'une notice
    • je construis le sous-corpus de la voix off …
  • je calcule les mots spécifiques du sous-corpus de la voix off limité à ces sujets.

Analyse combinante 2

  • je sélectionne les sujets contenant “Brigitte Bardot” dans la notice sujet et ne contenant pas “Brigitte Bardot” dans la voix off
  • je lis la voix off correspondante
  • ou bien je calcule les mots spécifiques de ce sous-corpus, pour identifier par quoi le terme aurait éventuellement été souvent remplacé

Solutions dans TXM

Trois solutions possibles à court terme :

1) En en faisant une autre partie du même texte

On aurait : Titre, Résumé, Descripteurs, Séquences, Transcriptions de voix off.

→ l'édition est potentiellement mixte : écrite + transcription → la tokenisation est mixte

2) Sinon, on peut avoir deux corpus :

  • un des notices (avec les parties textuelles des notices)
  • un des commentaires (avec les mêmes métadonnées que les notices)

→ on réalise soi-même l'alignement dans des requêtes ad hoc

3) Sinon, on peut avoir deux corpus alignés au niveau du sujet :

  • un des notices (avec les parties textuelles des notices)
  • un des commentaires (avec les mêmes métadonnées que les notices)

⇒ pour la version 1 on s'en tient à la solution 2.

Gestion du volume et des bugs des données

On peut écarter un certain nombre de fichiers :

  • Problèmes de segmentation de certains fichiers (en gros au dessus de 8000 octets du .trs)
  • Vidéos muettes (en gros en dessous de 660 octets du .trs).
  • Langue étrangère transcrite en français : s'appuyer sur la colonne Langue VO / VE du fichier excel des notices ?

Version 2

Choix des sources

Le corpus source est au format XML Vocapia ou XML Transcriber.

Remarques :

  • TXM ne peut pas importer le format XML Vocapia directement
  • le Transcriber ne contient pas d'informations au niveau du mot (comme le Vocapia)

Solution 1 : intégrer les informations au niveau du mot dans le Transcriber

→ une demande est en cours pour intégrer les informations au niveau du mot dans la sortie Transcriber

Solution 2 : importer le XML Vocapia

→ suppose le développement d'un nouveau module d'import. Un prototype d'import Vocapia a été réalisé dans le cadre de Matrice. Il faut préciser son niveau de développement et son statut.

Métadonnées

Pour la version 1, on a fait en sorte que l'unité documentaire “transcription” corresponde au sujet INA, pour être directement compatible avec l'architecture d'import de TXM existante.

Une solution plus puissante serait de développer la capacité à travailler directement à partir des sources INA. Une table de fichiers + synchronisation des sujets serait utilisée pour :

  • délimiter les sujets : séparer ou fusionner des fichiers
  • associer les métadonnées sujet aux transcriptions : au niveau des fichiers

Cela supposerait un développement en amont de l'import.

Synchronisation

Pour l'étape corpus v2 ou v3 la question pourra se poser d'aligner Séquences et voix off par les timecodes.

Développement des corpus

V0

Import direct des fichiers .trs produits par le LIUM, sans métadonnées.

Certains fichiers .trs ont été écartés :

  • le fichier 'liste.ods' indique la taille en octets de tous les fichiers de transcription
  • 'longueurs-trs.pdf' est la visualisation graphique de toutes ces tailles
  • 'no-words-file-sizes.ods' liste les transcriptions ne contenant pas de mots
    • l'heuristique utilisée est egrep -c '^[^<].+$' *, ce qui donne 692 fichiers sans mots
    • ces transcriptions ont été retirées parce qu'elles plantaient l'import

Les sources et les paramètres d'import sont inclus dans l'archive déposée dans sharedocs.

V0.1

Import des fichiers .trs avec métadonnées.

On utilise les fichiers .trs de la version 0.

Choix des transcriptions

Les transcriptions ne contenant aucun mot plantent la production d'éditions dans l'import Transcriber + CSV de TXM 0.7.91). Ces 2895 trancriptions sont donc retirées du corpus.

Pour obtenir leur liste :

egrep -c '^[^<].+$' *.trs|grep :0|tr '\n' ',' | sed -e 's/.trs:0//g' -e 's/,/, /g'>/tmp/out

Préparation des métadonnées

Une nouvelle macro appellée MergeExcelDir a été développée pour fusionner les tableaux de métadonnées par années de l'INA.

Elle normalise les noms des colonnes (option normalizeIdentifiers).

Elle traite les valeurs multiples (option multipleValues), séparées par des “ ; ”, en les recodant en '|val1|val2|…|“ (voir par exemple le retour sur la prise en compte des opérateurs, colonne Générique (Aff. Lig.))

La macro est appelée sur les données de l'INA avec les paramètres suivants :

  • columnList =
    Identifiant de la notice,Nom fichier segmenté (info),Type de notice,Lien notice principale,Date de diffusion,Type de date,Notes du titre ,Genre,Durée,Langue VO / VE ,Nature de production ,Producteurs (Aff.),Thématique,Titre propre,Résumé,Séquences,Descripteurs (Aff. Lig.),Générique (Aff. Lig.) 
  • multipleValues =
    Descripteurs (Aff. Lig.),Générique (Aff. Lig.) 

Attention : bien noter l'espace à la fin du nom de certaines colonnes.

Le tableau de métadonnées résultant est composé de 23 115 lignes.

Gestion des fichiers vidéo

Les fichiers vidéos ne font pas partie des sources (trop lourds).

Après import ou chargement, il faut créer un lien dynamique du corpus vers le répertoire de fichiers vidéos pour que le retour au média fonctionne :

ln -s /media/sheiden/TXM-ANTRACT/181011/vis_sujet ~/TXM/corpora/AFVOIXOFFV01/media

Fichiers du corpus

  • afvoixoff-0.1-src.zip : sources sans les vidéos
  • AFVOIXOFFV01.txm : binaire sans les vidéos

Retours

V0

Le retour à la vidéo est validé.

V0.1

BP, 2019-05-06

L'association des métadonnées au corpus change vraiment le rapport au corpus et permet de mieux comprendre son contenu, notamment ce qui concerne les recouvrements/doublons de vidéos, cf. observations notées un peu plus bas.

La V0.1 du 26 avril 20129 présente deux difficultés ou bugs à corriger :

1) le tableau de métadonnées comporte des guillemets doubles, qui sont mal gérés lors de l'import (cf. retours d'Alice Brenon fin 2018, et ticket Bug #2471 - RCP: 0.7.9, quote error in metadata projection in XML files. Une solution dans l'immédiat serait de supprimer ou remplacer (par ex. par un guillemet simple/apostrophe ?) les guillemets des métadonnées.

2) Un caractère invisible (?) s'intercale entre le type et la valeur de chaque descripteur dans la propriété descripteursafflig, on l'observe par exemple en faisant les requêtes suivantes :

<text>[_.text_descripteursafflig=".*DEL.*"] -> des résultats
<text>[_.text_descripteursafflig=".*DEL:.*"] -> des résultats
<text>[_.text_descripteursafflig=".*DEL: .*"] -> des résultats
<text>[_.text_descripteursafflig=".*DEL: P.*"] -> plus rien
<text>[_.text_descripteursafflig=".*DEL: Pologne.*"] -> (rien non plus a fortiori)
<text>[_.text_descripteursafflig=".*DEL: .P.*"%c] -> des résultats

Supprimer ce caractère ou/et voir si le traitement du champ “descripteurs (aff. col.)” (dont le contenu est normalement identique) serait plus simple ?

D'autres évolutions sont envisageables (à moyen terme) pour faciliter l'exploitation chronologique :

  • possibilité de coder la date en AAAA-MM-JJ ?
  • possibilité d'ordonner le corpus par date ? (Progressions)

Autres observations :

  • intérêt a priori de la structuration en liste des descripteurs et génériques (interrogeables avec l'opérateur contains qui simplifie la syntaxe des requêtes)
  • modèle de langue TreeTagger = français parlé
    • dans les notices documentaires on a un autre modèle (l'habituel), il faudra que les utilisateurs d'Antract comprennent et arrivent à gérer les différences d'étiquettes ;
    • [frppos = “NAM”] manifestement inutilisable (en grande partie faute de majuscules dans les sources sans doute ?)

Première étude des recouvrements/doublons/reprises dans le corpus (grâce aux métadonnées)

  • Notices sommaires = concaténation dans le bon ordre des vidéos du numéro.
  • Certains sujets renvoient à une vidéo plus longue, dans le cas que j'ai observé AFE85008611, AFE85008612, AFE85008613 sont trois moments successifs d'une même unité vidéo mais le fichier vidéo associé est présenté dans son entier.
  • En cherchant un autre cas, je m'aperçois que des sujets composites analogues ne sont pas présents dans le corpus. Par exemple dans le sommaire AFE86004869 il y a plusieurs sujets qui sont composés, par exemple :
    • La rentrée des classes à Paris AFE85005278 + L'école clandestine de Beaunotte AFE85005279, ou encore
    • Un jeune aveugle sténo dactylo AFE85005281 + UN APPAREIL DE VISION ARTIFICIELLE AFE85005282

Or ces sujets n'apparaissent pas dans le corpus (sauf AFE85005282), ni dans la recherche inamediapro à cette date (8 octobre 1953), dans inamediapro on n'y accède que via le sommaire.

On a donc :

  • des redondances entre sommaires et sujets contenus
  • des redondances entre (sous-)sujets (~chapitres) à l'intérieur d'une même unité (sujet) vidéo
  • On a aussi des lacunes dans les sujets, avec des sujets qu'on ne retrouve que dans les sommaires globaux.
  • Les notices isolées rendent compte de sujets d'éditions régionales, qu'on ne retrouve pas dans les notices sommaires.
1)
théoriquement ce ne sera plus le cas dans TXM 0.8.0
public/antract/antract_corpus_voixoff.txt · Dernière modification: 2019/05/27 17:47 par benedicte.pincemin@ens-lyon.fr