Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_voixoff

Corpus TXM des transcriptions speech2text de la voix off (commentaires) des Actualités Françaises

Versions

Spécifications

AFVOIXOFF V0.3.0

Comme V0.2 plus :

A) recréer les métadonnées de datation de AFNOTICES : datedediffusiontri, datedediffusionannee...

Pour :

  • → tris chronologiques en concordance
  • → faire des partitions chronologiques

Comment :

  • ⇒ créer utilitaire enhance_metadata (xlsx → xlsx)
    • paramètres
      • fichier métadonnées
      • nom colonne date
  • ⇒ récupérer le code dans les macros de préparation de AFNOTICES

[BP 2020-10-07] Je ne suis pas sûre que datedediffusionjoursemaine soit pertinente pour le corpus des Actualités françaises (on pourrait demander leur avis à Franck et Jean par exemple), mais j'imagine qu'on peut souhaiter quand même le garder (i) parce que ça ne mange pas de pain et (ii) parce que ça pourrait être utile pour d'autres corpus.

A bis) [BP 2020-10-07] Corriger le format de la métadonnée textorder

Dans AFVOIXOFFV02 un bug de format fait que cette métadonnée figure sous la forme de nombres du genre 1.9470522E7, 1.964061E7, etc. au lieu d'avoir des entiers de 1 à 1258. (Rq. Pour ce qui concerne la V02 le bug ne concerne que la forme, sur le fond si on trie sur la métadonnée elle fonctionne bien comme attendu, à savoir on obtient bien l'ordre du corpus qui suit l'ordre chronologique.)

B) calculer différemment les références de Concordances et de Références

  • actuellement (AFVOIXOFFV02, date de création: 15 novembre 2019, 12h41) : id, locuteur, time code
  • souhaité : date, id, time code

Comment :

  • ⇒ nouveau paramètre d'import 'references_values' : la valeur est une liste de désignations de propriétés de structures ou de propriétés de mots, séparées par une virgule
    • on parcourt cette liste pour générer la propriété 'ref' de chaque mot
  • ⇒ bonus : nouveau paramètre 'references_pattern' : la valeur est une chaine de sprintf, exemple “%s, p. %s” (il faut autant de '%s' que de valeurs dans le paramètre 'references_values')
    • la propriété 'ref' de chaque mot prend un sprintf(references_pattern, liste des references_values)

[BP 2020-10-08] Liste de propriétés envisageables

Concrètement voici un ensemble de propriétés potentiellement intéressantes :

  • text:date-de-diffusion : en effet, la métadonnée div:date-de-diffusion n'est pas toujours renseignée, c'est le cas quand le sujet n'a pas pu être synchronisé
  • ou text:date-de-diffusion-tri ?
  • div:identifiant-de-la-notice (c'est précis mais opaque/non mnémonique)
  • div:id (court, interprétable comme numéro d'ordre du sujet - semble bien pour trier)
  • u:time (c'est précis mais on n'en a peut-être pas souvent besoin)
  • div:titre-propre (= div:type) (cela distingue les sujets et c'est parlant mais long (et longueur variable))

Je note des critères à garder en tête :

  • pas trop long ou largeur de colonne par défaut fixe et pas trop grande
  • tri par défaut chronologique (textorder cependant insuffisant pour ordonner les sujets <div>

B bis) trier la liste de sélection de propriétés de structures et de propriétés de mots de la boite de dialogue de construction de références :

Comment :

  • 1) par propriétés de mots : “word” puis alphabétiquement
  • 2) puis, par propriétés de structures alphabétiques
  • il doit déjà y avoir un ticket pour ça
  • appliquer cette stratégie à toutes les listes de sélections

C) nettoyer caractère invisible

  • diagnostic : s'intercale entre le type et la valeur de chaque descripteur dans la propriété descripteursafflig, on l'observe par exemple en faisant les requêtes suivantes :
<div>[_.div_descripteursafflig=".*DEL.*"] -> des résultats
<div>[_.div_descripteursafflig=".*DEL:.*"] -> des résultats
<div>[_.div_descripteursafflig=".*DEL: .*"] -> des résultats
<div>[_.div_descripteursafflig=".*DEL: P.*"] -> plus rien
<div>[_.div_descripteursafflig=".*DEL: Pologne.*"] -> (rien non plus a fortiori)
<div>[_.div_descripteursafflig=".*DEL: .P.*"%c] -> des résultats

Comment :

  • ⇒ récupérer le code dans les macros de préparation de AFNOTICES ?

[BP 2020-10-08] Compléments sur les caractères invisibles

De mémoire, en changeant de version du corpus on a changé de métadonnée (aff-lig au lieu de aff-col) pour voir si ça réglait le problème, et donc l'expérience montre que non, ces caractères invisibles sont présents en fait assez généralement dans tous les champs “…aff-lig” et “…aff-col”. Ils affectent donc tant les Descripteurs que les Génériques. Observations sur la version AFVOIXOFFV02 :

<div_generique-aff-lig="OPV Forestier, Félix..; ..[A-Z].+">[]

⇒ beaucoup de caractères invisibles, je pense essentiellement avant et après le point-virgule Attention par contre il y avait peut-être une fragilité du code d'AFNOTICES au niveau de certains parenthésages (cf. retours du 2 octobre 2018 sur le corpus AFNOTICES).

<div>[_.div_descripteurs-aff-lig=".*DEL: .P.*"%c]

⇒ on a juste actualisé à la dernière version d'AFVOIXOFFV02 la requête la plus utile de l'ensemble ci-dessus. On note qu'il y a un caractère invisible après le blanc qui suit les deux points.

[BP 2020-10-08] Autre pré-traitement typographique sur le xlsx des notices : tirets à décoller dans les séquences (et résumés)

Dans le corpus, parties résumé ou séquences, on observe que certains tirets sont collés à la fin d'un mot, ce qui gêne les recherches (dans tous les corpus) et la tokenisation et l'étiquetage (dans AFNOTICES). Repérer par exemple le motif :

  • AFVOIXOFF :
    <div_sequences=".*\p{L}+- .*">[]
  • AFNOTICES :
    ".*\p{L}+-" within sequences

On observe que cela mélange des cas d'un mot composé “éclaté” (un espace s'est intercalé avant la 2e partie), ou une absence de retour à la ligne (le tiret devait introduire un nouveau point de liste et n'a aucune raison d'être collé au mot précédent).

La proposition qui me semble la plus simple serait de décoller le tiret du mot qui précède.

[BP 2020-10-08] Autre pré-traitement typographique sur le xlsx des notices : tabulations

Le champs Séquences comporte des tabulations. Cela interfère si on fait un export de concordance avec les paramètres par défaut. Étudier peut-être leur remplacement par des espaces ?

Si possible vérifier peut-être systématiquement que ce phénomène ne se produit pas dans d'autres champs (je ne l'ai pas fait).

[BP 2020-10-14] Suite à l'étonnement de Matthieu, j'ai recherché l'export de concordance qui m'avait fait observer cela, mais je n'ai pas réussi à remettre la souris dessus. Par ailleurs il ne semble pas qu'il y ait de tabulations dans le tableau source de Jean, dans la colonne Sequences. Attendons peut-être de voir éventuellement ressurgir le problème pour l'identifier et le traiter.

D) métadonnées d'émissions (text)

  • supprimer de l'affichage de l'édition :
    • elapsed_time
    • subtitle
    • textorder ([BP 2020-10-08] Si cette propriété reprend la forme d'un entier de 1 à 1258, je serais plutôt pour la garder)
  • ajouter 'datedediffusionjoursemaine' dans l'édition

E) [BP 2020-10-08] Paramétrage de TreeTagger

Les transcriptions automatiques ont un usage des majuscules assez différent de celui des écrits “standards, notamment il y a beaucoup de majuscules de type début de phrase qui ne sont pas précédées d'une ponctuation forte. Cela semble perturber TreeTagger. On pourrait tester le paramètre “Look up unknown capitalized words in the list of lower-case words” et observer si cela améliore les choses pour une requête comme :

[word!="\.|\?|!"][word="\p{Lu}.*"]

Solution

A) métadonnées

  • récupérer le code de préparation de AFNOTICES pour la gestion des métadonnées de date
  • corriger l'écriture de la colonne 'textorder' du fichier Excel des emissions
  • générer et manipuler systématiquement des noms de propriétés avec tirets de séparation de mots

B) références de Concordances affichées par défaut

  • text_date-de-diffusion-tri, u_time, div_identifiant-de-la-notice

B bis) tri par défaut des références de Concordances

  • text_date-de-diffusion-tri, u_time, div_identifiant-de-la-notice
  • MD on peut utiliser date-de-diffusion pour l'affichage

C) texte des valeurs de métadonnées

  • ajouter un espace devant les tirets (-) collés à la fin d'un mot et suivis par un espace.

Recettes

Procédure de préparation du corpus AFVOIXOFF V0.3.1

  • Installer TXM 0.8.1 et mettre à jour au niveau ALPHA
  • Récupérer les transcriptions sur sharedocs : (7000) ANTRACT/SP2 Corpus & Recherche technologique/Voix Off/asr_livraison5.tgz
  • Récupérer le tableau des notices INA sur sharedocs : (7000) ANTRACT/SP2 Corpus & Recherche technologique/Notices documentaires/AF/Notices 3oct19
  • Lancer l'utilitaire “projects/antract/PrepareAFVOIXOFFCorpus” avec les paramètres suivants :
    • tableFile : chemin du tableau des notices
    • trsDirectory : chemin du répertoire des fichiers TRS
  • Importer avec le module d'import “XML Transcriber + CSV” le sous-répertoire “out” du répertoire “trsDirectory” utilisé
  • Vérifier dans le corpus :
    • les métadonnées de datation
    • les tirets dans les noms de métadonnées d'émissions et de sujets dans l'édition
    • le bon fonctionnement des requêtes sur le champ “div_descripteurs-aff-lig”
    • les métadonnées d'émissions
      • note : la métadonnée “elapsed_time” apparaît encore dans le tableau de métadonnées. Il est prévu de la supprimer à la prochaine cible de développement qui implémentera le ticket #2930
    • les références par défaut des concordances
    • le tri par défaut des références des concordances
    • Vérifier l'amélioration de l'annotation TreeTagger des mots en majuscules

Retours

V0.2

V0.3.0

  • SLH il semble que TXM ait besoin d'un minimum d'espace mémoire pour pouvoir exécuter l'utilitaire PrepareAFVOIXOFFCorpus
    • par contre, je ne sais pas comment on fait pour augmenter la mémoire de TXM 0.8.1 :
      • le manuel et la faq indiquent le chemin $TXMHOME/.txm/TXM.ini pour le fichier à modifier, mais ce chemin n'existe plus
      • mon installation TXM-0.8.0 semble avoir créé un chemin /home/sheiden/.TXM-0.8.0/TXM.ini, mais pas TXM-0.8.1
      • MD J'ai modifié les noms des fichiers internes de TXM : http://forge.cbp.ens-lyon.fr/redmine/issues/2802
        • il faudra donc modifier les réglages de taille mémoire du fichier ~/.TXM-0.8.1/launcher.ini comme décrit dans le manuel et la FAQ. Par exemple, pour doubler la taille :
          -vmargs
          -Xms4112m
          -Xmx4112m
        • SLH : j'ai mis à jour le manuel de TXM avec ces indications
  • SLH les fichiers .trs se trouvant dans l'archive “asr_livraison5.tgz” ont des majuscules
    • il faut clarifier et le cas échéant rediscuter du traitement particulier par rapport à TreeTagger
    • MD : je confirme que les TRS de la livraison 5 du sharedocs humanum et du ftp INA ont bien des majuscules. Je ne comprends pas pourquoi je n'en n'avais pas sur ma machine du taff (que je compte récupérer + tard).
      • MD cocher l'option “Look up unknown capitalized words in the list of lower-case words” améliore en effet les frpos
        • → est-ce-qu'on activerait pas cette option par défaut ?
        • SLH OK
  • SLH création manuelle du fichier CorpusCommandPreferences.prefs * la nouvelle section du manuel ”6.2.5 Paramètres de corpus du lecteur multimedia“ donne des instructions pour régler les accès distants aux médias par l'UI de TXM (informations qui font partie de CorpusCommandPreferences.prefs) * tu viens par ailleurs de créer une nouvelle UI pour régler le format et le contenu des références de concordances dans la commande Concordance * est-ce que ça ne vaudrait pas le coup de remplacer la création manuelle du fichier par 2 manipulations dans l'UI de TXM : - régler les accès distants aux médias par l'UI Paramètres de corpus du lecteur multimedia - régler le format et le contenu des références de concordances dans l'UI de la commande Concordance - MD l'édition des paramètres est possible dans une vues basique (presque de debug) de TXM mais la manipulation n'est pas évidente : - sélectionner le corpus - (si elle ne l'ai pas déjà) ouvrir la vue “TXM > Paramters” à partir du menu principal “Affichage > Vues > Autres…” - appuyer sur le bouton “refresh” de la vue - appuyer sur le bouton “⇧” de la vue (pour remonter au parent du corpus CQP précédement sélectionné) - double-cliquer sur la ligne “CorpusCommandPreferences” - double-cliquer sur la ligne “concordance” - les préférences par défaut du corpus pour la commande “Concordance” se trouvent ici - double-cliquer sur la ligne “backtomedia” - les préférences par défaut du corpus pour la commande “BackToMedia” se trouvent ici - on peut modifier les valeurs en cliquant dans la celule de droite - on peut ajouter des noeuds “concordance” ou “backtomedia” si ils n'existent pas avec le bouton ”+ node“ - on peut ajouter des valeurs si elles n'existent pas avec le bouton ”+ entry“ * MD le ticket http://forge.cbp.ens-lyon.fr/redmine/issues/2934 peut être une solution pour le corpus AFVOIXOFFV4 (le suivant)
  • BP (2020-11-05) :
    • [BP, 2020-11-05] mettre à jour la recette car le fichier CorpusCommandPreferences.prefs existe déjà, il contient les lignes :
concordance/context_limits=text
concordance/context_limits_type=list
concordance/name=concordance
eclipse.preferences.version=1
  • [BP, 2020-11-05] métadonnées de datation :
    • datedediffusion-moi → datedediffusion-mois
    • d'une façon générale pour les métadonnées, d'un corpus à l'autre on change les noms, ce serait bien qu'on stabilise et unifie (les utilisateurs vont devoir penser et réussir à mettre à jour toutes leurs requêtes). Est-ce que l'état actuel (qui rapproche AFVOIXOFF de AFNOTICES, mais utilise partiellement les tirets, et casse la continuité entre les deux versions de AFVOIXOFF) est ce qui a été choisi ? Ou bien souhaite-t-on plutôt rapprocher les corpus en faisant évoluer AFNOTICES ? Etat actuel :
      • AFNOTICES : l'élément “notice” a les propriétés identifiantdelanotice, datedediffusion, datedediffusionjour, datedediffusiontri…
      • AFVOIXOFFV02 : les éléments “text” et “div” ont entre autres la propriété date-de-diffusion, l'élément “div” a entre autres la propriété identifiant-de-la-notice
      • AFVOIXOFFV03 : les éléments “text” et “div” ont entre autres la propriété datedediffusion, l'élément text a entre autres la propriété datedediffusion-jour (autrement dit une formule mixte des deux cas précédent : avec un tiret mais pas tous), l'élément “div” a entre autres la propriété identifiantdelanotice.
      • SLH : la possibilité d'utiliser le tiret '-' dans les noms de propriétés est plus récent que les premiers corpus ANTRACT et je pense qu'il faut utiliser le plus possible cette possibilité qui clarifie les dénominations → utiliser systématiquement le tiret dans tous les noms de propriétés de tous les corpus
  • [BP, 2020-11-05] références par défaut des concordances
    • Ce n'est pas exactement ce qui était prévu
      • on a : div:datedediffusion, text_id, u_time
      • on voulait : text:datedediffusiontri (car la date n'est pas toujours renseignée pour les div, cf. div non synchronisées), div:identifiantdelanotice (car l'identifiant du sujet est plus précis et plus intéressant que celui du sommaire, qui est un peu redondant avec la date). Par ailleurs u:time ne semblait pas forcément souhaitable par défaut : cela permet une référence concise et souvent suffisante, et on peut toujours le rajouter quand on en a besoin.
      • SLH : la spécification n'est pas assez précise, elle dit “souhaité : date, id, time code” → il faut la remplacer par “text:datedediffusiontri, div:identifiantdelanotice”. Pour u_time, pourquoi la spéc le contient encore ?
        • BP : là il me semble que tu réfères au début de la discussion de la spéc. Ensuite il y a des éléments pour la discussion (qui disent effectivement que ça doit être précisé). Puis il y a une autre section notant les choix après discussion : b_choix
  • [BP, 2020-11-05] tris des propriétés de la concordance : OK
    • la logique par type d'élément en commençant par word, puis alphabétique, semble bien suivie.
    • si on retire une propriété de la boîte de droite pour la remettre dans la liste de gauche, elle se range tout à la fin (pas à sa place par ordre structure/alphabet) ; en revanche, si la boîte de dialogue est fermée puis réouverte, la liste des propriétés disponibles est entièrement retriée et les dernières propriétés rajoutées ont été reclassées à leur place.
  • [BP, 2020-11-05] autres retours sur la concordance
    • le panneau des paramètres s'affiche mal :
      • les boutons des clés de tri se chevauchent
      • l'affichage du réglage de la “vue” des “Références” est suivi d'un ”(%s,%s,%s)“ non pertinent ici.
    • la propriété de tri de la concordance est initialement “ref”, mais si on veut afficher le contenu de “ref” en la mettant en propriété d'affichage, cela échoue : on n'a pas accès au contenu de “ref” et cela génère une erreur.
    • serait-il possible que l'ordre de tri par défaut des références soit l'ordre du corpus ? Une formule où la propriété d'affichage par défaut et la propriété de tri par défaut seraient ref (composé de : text:datedediffusiontri, u:time, div:identifiantdelanotice -ce qui devrait assurer un tri chronologique) pourrait être intéressante - à discuter.
  • [BP, 2020-11-05] bon fonctionnement des requêtes sur le champ “div_descripteursafflig” : OK
    • testé aussi avec succès sur “div_generiqueafflig”
    • cependant, il faudra expliquer aux utilisateurs de faire attention aux caractères du langage CQL, par exemple si on copie-colle un segment depuis une édition (texte : AFE86004452, page : 2)
<div>[_.div_descripteursafflig=".*DET: condamnation (condamnation à mort) ;.*"]

il faut penser à “endormir” les parenthèses :

<div>[_.div_descripteursafflig=".*DET: condamnation \(condamnation à mort\) ;.*"]
  • [BP, 2020-11-05] métadonnées d'émissions (sachant que la métadonnée “elapsed_time” est appelée à disparaître) : OK
  • [BP, 2020-11-05] métadonnées de sujets (div) :
    • Les sujets non synchronisés affichent deux propriétés :
      • id (qui correspond au numéro d'ordre du sujet dans l'émission), et
      • “synchronized: false”
    • Les sujets synchronisés n'affichent ni l'une ni l'autre, pourtant il pourrait être utile de voir leur numéro d'ordre.
    • Cette métadonnée “synchronized” permet de voir le gain de synchronisation avec les nouvelles données :
      • AFVOIXOFFV02 : 1772 / 11373 ~ 15 %
      • AFVOIXOFFV03 : 967 / 10574 ~ 9 %
      • cependant cela ne colle pas complètement avec ce qu'avait décompté Jean (06/10/2019 à 09:49 sur antract-copil, à propos du tableau des notices du 3 octobre 2019) : “Il reste 544 sujets non timecodés, sur un total de 10787 (soit environ 5%).” D'où peut venir cet écart ? Cela semble dire qu'il y a significativement plus de “trous” (passages vidéos non décrits) que de sujets non synchronisés : près de 1000 trous par rapports à 500 sujets non synchronisés.
      • Une piste : de nombreux sujets non-synchronisés ne comportent que très peu de mots : par ex. 375 sujets non synchronisés ont 1 ou 2 mots, 419 sujets non synchronisés ont moins de 10 mots. Ne faudrait-il pas introduire un seuil (de nombre de mots et de durée) en deça duquel on colle le segment au sujet précédent ou suivant ? (Remarque : on trouve aussi des sujets synchronisés très courts, peut-être sans paroles ? Comme mon retour à la vidéo est cassé je ne peux pas facilement vérifier).
      • Types de requêtes utilisées :
<div_synchronized="false">[]
<div>[]
<div_synchronized="false">[]{1,10}</div>
  • [BP, 2020-11-05] En revanche dans mon TXM le retour au média ne fonctionne plus.
    • Rq. : je n'ai pensé à réinstaller l'extension MediaPlayer qu'après l'import : est-ce que cela a pu jouer ?
    • j'affiche une édition et je clique une note de musique, je saisis mon identifiant et mot de passe Okapi : la fenêtre TXM se ferme (fin brutale de l'application). Même résultat sur AFVOIXOFFV02 → ce serait plus lié à TXM 0.8.1 sous ubuntu 20.04 qu'au corpus lui-même ? Cependant on a aussi :
    • je calcule une concordance, si je demande “jouer le média”, j'ai le message d'erreur suivant :
Erreur : pas de propriété 'starttime' de la structure 'sp' trouvée
  • SLH : j'ai l'impression que MD a mis à jour la section de réglage des paramètres média
  • [BP, 2020-11-05] Par ailleurs j'ai l'impression qu'on n'a pas “ajout[é] un espace devant les tirets (-) collés à la fin d'un mot et suivis par un espace” : est-ce un oubli ? ou bien on a décidé finalement de ne pas le faire, ou pas tout de suite ?
  • [BP, 2020-11-05] Mémo : le paramètre TAL “Look up unknown capitalized words in the list of lower-case words” semble avantageux, penser à l'activer par défaut dans TXM ?

V0.3.1

  • [BP, 2020-11-13]
    • les métadonnées de datation : OK
    • les tirets dans les noms de métadonnées d'émissions et de sujets dans l'édition : OK
    • le bon fonctionnement des requêtes sur le champ “div_descripteurs-aff-lig” : OK (vu aussi generique-aff-lig, producteurs-aff)
    • les métadonnées d'émissions : OK, et la métadonnée “elapsed_time” n'apparaît plus dans le tableau de métadonnées. #2930
    • les références et le tri par défaut des concordances
      • l'affichage par défaut est “u_time”, il manque la date et l'identifiant du sujet (on attendait text_date-de-diffusion-tri, u_time, div_identifiant-de-la-notice) ; à toutes fins utiles je remarque que je ne vois plus de pattern renseigné (il y a un champ “motif” dans la boîte de dialogue mais il est vide) ;
        • MD ok les noms de propriétés n'avais pas les tirets ”-“
      • le tri par défaut est sur “u: time”, mêmes infos manquantes ;
        • MD ok les noms de propriétés n'avais pas les tirets ”-“
      • on remarque que le séparateur entre structure et propriété est différent pour l'affichage (_) et pour le tri (: suivi d'un espace).
        • MD encours de standardisation (faut que je retrouve le ticket)
      • les boutons de tri de la concordance se recouvrent toujours un peu dans mon affichage (ubuntu 20) :
      • dans le panneau de réglage des paramètres de la concordance, le bouton Références+Vue appelle la boîte de dialogue “Options d'affichage des références”, le bouton Références+Tri appelle “Options d'affichage” incluant des propriétés de structures avec notation souligné (ex. u_time qui est affiché par défaut dans le panneau), et pour toutes les autres colonnes les boutons (vue ou tri) appellent “Options d'affichage” (avec choix limité aux propriétés lexicales, ce qui semble normal).
    • Vérifier l'amélioration de l'annotation TreeTagger des mots en majuscules : OK Est-ce que le réglage du paramètre TT correspondant est maintenant fait par défaut (via la mise à jour) ? devrait-il être indiqué dans la recette (de toutes façons) ?
    • (Le problème de retour à la vidéo sous ubuntu 20 est encore présent, TXM quitte violemment quand je valide la boîte d'authentification à Okapi)
public/antract/antract_corpus_voixoff.txt · Dernière modification: 2020/11/23 11:11 par matthieu.decorde@ens-lyon.fr