Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_voixoff_v0

Corpus TXM des transcriptions speech2text de la voix off (commentaires) des Actualités Françaises

Version 0

Une première version d'un corpus TXM sans métadonnées appelé AFVOIXOFFSUJ composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises segmentées par sujets a été réalisée en octobre 2018.

Il a été déposé sur sharedocs dans :

https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/TXM/Corpus/Corpus%20voixoff

Le répertoire contient :

  • AFVOIXOFFSUJ.txm : le corpus binaire
  • afvoixoffsuj-src.zip : l'archive du répertoire source

Spécification des sources et de l'Import

  • les métadonnées se trouvent dans les fichiers Excel des notices documentaires. Les fichiers se trouvent dans sharedocs :
    https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF
    davs://sharedocs.huma-num.fr/dav.php/@Shares/(2139)%20ANR/(7000)%20ANTRACT/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF

Développement des corpus

Import direct des fichiers .trs produits par le LIUM, sans métadonnées.

Certains fichiers .trs ont été écartés :

  • le fichier 'liste.ods' indique la taille en octets de tous les fichiers de transcription
  • 'longueurs-trs.pdf' est la visualisation graphique de toutes ces tailles
  • 'no-words-file-sizes.ods' liste les transcriptions ne contenant pas de mots
    • l'heuristique utilisée est egrep -c '^[^<].+$' *, ce qui donne 692 fichiers sans mots
    • ces transcriptions ont été retirées parce qu'elles plantaient l'import

Les sources et les paramètres d'import sont inclus dans l'archive déposée dans sharedocs.

Recette

Retours

Le retour à la vidéo est validé.

Voir : Metadonnées voix off

public/antract/antract_corpus_voixoff_v0.txt · Dernière modification: 2020/10/12 15:10 par matthieu.decorde@ens-lyon.fr