Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_voixoff

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:antract:antract_corpus_voixoff [2019/10/15 14:57]
matthieu.decorde@ens-lyon.fr [Retour à la vidéo]
public:antract:antract_corpus_voixoff [2020/03/19 08:54] (Version actuelle)
matthieu.decorde@ens-lyon.fr [B bis) trier la liste de sélection de propriétés de structures et de propriétés de mots de la boite de dialogue de construction de références :]
Ligne 138: Ligne 138:
 Import des fichiers .trs transcriptions de vidéo émission (notices sommaires) d'​octobre 2019 (plus de transcriptions sujets). Import des fichiers .trs transcriptions de vidéo émission (notices sommaires) d'​octobre 2019 (plus de transcriptions sujets).
  
-Les sujets deviennent des structures internes des transcriptions d'​émissions.+Les sujets deviennent des structures internes ​(Sections Transcriber) ​des transcriptions d'​émissions.
  
-Métadonnées issues du tableau unique avec timing de sujets Totem + analye de correspondances audio/​vidéo <​code>​ANTRACT_AF_Notices_26sept19.xlsx</​code>​+Métadonnées issues du tableau unique avec timing de sujets Totem + analye de correspondances audio/​vidéo <​code>​ANTRACT_AF_Notices_3oct19.xlsx</​code>​
  
-Il y a une sélection de métadonnées + 6 nouvelles métadonnées :<​code>​antract_debut+Il y a une sélection de métadonnées ​faite par l'​INA ​+ 6 nouvelles métadonnées ​de l'​INA ​:<​code>​antract_debut
 antract_fin antract_fin
 antract_duree antract_duree
Ligne 155: Ligne 155:
  
 Le tableau pilote la création des unités textuelles, de leurs sections internes et les métadonnées des unités textuelles et sections internes : Le tableau pilote la création des unités textuelles, de leurs sections internes et les métadonnées des unités textuelles et sections internes :
-  ​* le fichier Excel par année n'est plus utilisé +  * trier le fichier Excel par date de diffusion (à faire)
-    * soit on a un seul gros fichier +
-    * soit on n'​utilise plus l'​unité de fichier pour construire le texte +
-  ​* trier le fichier Excel par date de diffusion (à vérifier ou à faire)+
   * l'​unité textuelle = émission   * l'​unité textuelle = émission
      * les émissions sont décrites par les lignes dont le 'Type de notice'​ est '​Notice sommaire'​      * les émissions sont décrites par les lignes dont le 'Type de notice'​ est '​Notice sommaire'​
      * chaque émission est identifiée par un identifiant de notice sommaire (colonne "​Identifiant de la notice"​)      * chaque émission est identifiée par un identifiant de notice sommaire (colonne "​Identifiant de la notice"​)
      * elle a des propriétés tirées de certaines colonnes renseignées (sous-ensemble des colonnes utilisées pour les sujets) :      * elle a des propriétés tirées de certaines colonnes renseignées (sous-ensemble des colonnes utilisées pour les sujets) :
-        * Date de diffusion +        * Identifiant ​de la notice 
-        * Durée +        * Titre propre
-        * Genre+
         * Nom fichier segmenté (info)         * Nom fichier segmenté (info)
 +        * Date de diffusion
         * Notes du titre         * Notes du titre
-        * Titre propre +        * Durée 
-        * Type de date +        * **à faire** : 
-     * ses propriétés sont des métadonnées de sujets ? BP : a priori non, si on met ces informations concernant les sujets au niveau des sections internes sujet (cf. ci-après).+          * retirer Genre et Type de date 
 +          * ajouter colonnes des propositions de BP (colonnes sources 'nom source'​ + colonnes calculées 'nom interne'​) 
 +     ​* ​<​html><​strike>​ses propriétés sont des métadonnées de sujets ? BP : a priori non, si on met ces informations concernant les sujets au niveau des sections internes sujet (cf. ci-après).</​strike></​html>​ 
 + 
 +**Remarques** : 
 +  * [BP, 2019-10-17] : Dans la liste des propriétés des émissions ci-dessus, je viens de retirer deux items ("​Genre"​ et "Type de date") suite à l'​étude présentée ci-après. 
 +  * Voir aussi [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​chantier_antract#​observations_sur_le_corpus|étude des métadonnées de BP du 1710]]. 
  
 ==== Sections internes "​sujet"​ ==== ==== Sections internes "​sujet"​ ====
  
-  * l'​unité textuelle est composée de structures '​sujet'​+  * l'​unité textuelle est composée de structures 'div @type=sujet'
     * les sujets sont décrits par les lignes dont le 'Type de notice'​ est '​Notice sujet'     * les sujets sont décrits par les lignes dont le 'Type de notice'​ est '​Notice sujet'
     * les (structures) sujets sont identifié(e)s par un identifiant de notice sujet (colonne '​Identifiant de la notice'​),​ et dans la colonne 'Lien notice principale'​ on trouve l'​identifiant de la notice principale (notice sommaire, émission) correspondante     * les (structures) sujets sont identifié(e)s par un identifiant de notice sujet (colonne '​Identifiant de la notice'​),​ et dans la colonne 'Lien notice principale'​ on trouve l'​identifiant de la notice principale (notice sommaire, émission) correspondante
Ligne 186: Ligne 190:
  
 <​code>​ <​code>​
 +Identifiant de la notice
 +Nom fichier segmenté (info)
 +Type de notice
 +Lien notice principale
 Date de diffusion Date de diffusion
-Descripteurs (Aff. Col.) +Type de date 
-Durée +Notes du titre 
-Générique (Aff. Col.)+
 Genre Genre
-Identifiant de la notice+Durée
 Langue VO / VE  Langue VO / VE 
-Lien notice principale 
 Nature de production ​ Nature de production ​
-Nom fichier segmenté (info) 
-Notes du titre  
 Producteurs (Aff.) Producteurs (Aff.)
-Résumé 
-Séquences 
 Thématique Thématique
 Titre propre Titre propre
-Type de date +Résumé 
-Type de notice+Séquences 
 +Descripteurs (Aff. Col.) 
 +Générique (Aff. Col.)
 </​code>​ </​code>​
 +
 +==== Nouvelle proposition pour le choix, l'​ordre et la présentation des métadonnées ====
 +
 +C'est une proposition de Bénédicte le 18 octobre 2019, dans le contexte de la préparation du corpus VOIXOFF avec la nouvelle architecture où les sujets sont inclus dans les journaux (sommaires) et où il n'y a plus de sujets isolés.
 +
 +En effet, dans ce nouveau contexte, le choix et l'​ordre des métadonnées adoptés pour les notices paraît moins pertinent car certaines métadonnées qui ne sont plus utilisées sont mises en valeur en tête de list
 +
 +Elle est notée ici, dans une section à part, pour étude et discussion, mais sera sans doute pour plus tard, car Serge propose de rester proche de l'​état précédent,​ notamment en termes de métadonnées à garder/​supprimer,​ en phase d'​expérimentation et de débuggage.
 +
 +**Propriétés à présenter pour la structure '​text'​ (= journal = notice sommaire)**
 +
 +  * identifiantdelanotice
 +  * titrepropre
 +  * notesdutitre
 +
 +[si possible dans une colonne à gauche :]
 +  * datedediffusion
 +  * datedediffusionjoursemaine
 +  * duree
 +  * nomfichiersegmente [à confirmer]
 +  * antractvideo
 +
 +[si possible dans une colonne à droite, si besoin moins large :]
 +  * antractdebut
 +  * antractfin
 +  * antractduree
 +  * antracttctype
 +  * antracttcdate
 +
 +**Propriétés à présenter pour la structure '​sujet'​ (= notices sujets)**
 +
 +  * identifiantdelanotice
 +  * titrepropre
 +  * notesdutitre
 +
 +[si possible dans une colonne à gauche :]
 +  * datedediffusion
 +  * datedediffusionjoursemaine
 +  * typededate
 +  * duree
 +  * genre
 +  * languevove
 +  * naturedeproduction
 +  * producteurs
 +  * thematique
 +
 +[si possible dans une colonne à droite, si besoin moins large :]
 +  * nomfichiersegmente [à confirmer]
 +  * antractvideo
 +  * antractdebut
 +  * antractfin
 +  * antractduree
 +  * antracttctype
 +  * antracttcdate
 +  * 
 +[données textuelles des notices sauf titre propre :]
 +  * resume
 +  * sequences
 +  * descripteurs
 +  * generique
 +
 +**Autres métadonnées**
 +
 +Les propriétés réécrivant la date sous différents formats (**datedediffusionannee**,​ **datedediffusionmois**,​ **datedediffusionjour**,​ **datedediffusiontri**) ne sont si possible pas affichées dans l'​édition (pour alléger) mais sont disponibles pour l'​interrogation. L'​utilisateur peut voir leur existence et leur format dans les propriétés du corpus.
 +
 +Les colonnes **Type de notice** et **Lien notice principale** sont utilisées pour construire et structurer le corpus, mais ne sont pas reprises dans les propriétés.
 +
 +À part ces deux cas, toutes les métadonnées utilisées et disponibles ont été listées ci-dessus.
  
 ==== Retour à la vidéo ==== ==== Retour à la vidéo ====
Ligne 225: Ligne 297:
  
 Cette phase fait également évoluer la liseuse vidéo pour la lecture en streaming avec authentification. Cette phase fait également évoluer la liseuse vidéo pour la lecture en streaming avec authentification.
 +
 +===== V0.3 =====
 +
 +Comme V0.2 plus :
 +
 +==== A) recréer les métadonnées de datation de AFNOTICES : datedediffusiontri,​ datedediffusionannee...====
 +
 +Pour :
 +  * -> tris chronologiques en concordance
 +  * -> faire des partitions chronologiques
 +
 +Comment :
 +  * => créer utilitaire enhance_metadata (xlsx -> xlsx)
 +  * => récupérer le code dans les macros de préparation de AFNOTICES
 +
 +==== B) calculer différemment les références de Concordances et de Références====
 +
 +  * actuellement (AFVOIXOFFV02,​ date de création: 15 novembre 2019, 12h41) : id, locuteur, time code
 +  * souhaité : date, id, time code
 +
 +Comment :
 +  * => nouveau paramètre d'​import '​references_values'​ : la valeur est une liste de désignations de propriétés de structures ou de propriétés de mots, séparées par une virgule
 +    * on parcourt cette liste pour générer la propriété '​ref'​ de chaque mot
 +  * => bonus : nouveau paramètre '​references_pattern'​ : la valeur est une chaine de sprintf, exemple "%s, p. %s" (il faut autant de '​%s'​ que de valeurs dans le paramètre '​references_values'​)
 +    * la propriété '​ref'​ de chaque mot prend un sprintf(references_pattern,​ liste des references_values)
 +
 +==== B bis) trier la liste de sélection de propriétés de structures et de propriétés de mots de la boite de dialogue de construction de références :====
 + 
 +Comment :
 +  * 1) par propriétés de mots : "​word"​ puis alphabétiquement
 +  * 2) puis, par propriétés de structures alphabétiques
 +  * il doit déjà y avoir un ticket pour ça
 +  * appliquer cette stratégie à toutes les listes de sélections
 +
 +==== C) nettoyer caractère invisible====
 +
 +  * diagnostic : s'​intercale entre le type et la valeur de chaque descripteur dans la propriété descripteursafflig,​ on l'​observe par exemple en faisant les requêtes suivantes :
 +<​div>​[_.div_descripteursafflig="​.*DEL.*"​] -> des résultats
 +<​div>​[_.div_descripteursafflig="​.*DEL:​.*"​] -> des résultats
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ .*"] -> des résultats
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ P.*"] -> plus rien
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ Pologne.*"​] -> (rien non plus a fortiori)
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ .P.*"​%c] -> des résultats
 +
 +Comment :
 +  * => récupérer le code dans les macros de préparation de AFNOTICES ?
 +
 +==== D) métadonnées d'​émissions (text)====
 +
 +  * supprimer de l'​affichage de l'​édition :
 +    * elapsed_time
 +    * subtitle
 +    * textorder
 +  * ajouter '​datedediffusionjoursemaine'​ dans l'​édition
  
 ====== Retours ====== ====== Retours ======
Ligne 279: Ligne 405:
   * Les notices isolées rendent compte de sujets d'​éditions régionales,​ qu'on ne retrouve pas dans les notices sommaires.   * Les notices isolées rendent compte de sujets d'​éditions régionales,​ qu'on ne retrouve pas dans les notices sommaires.
  
 +
 +====== Observations sur le corpus ======
 +
 +Voir [[public:​antract:​observations_corpus#​etude_des_metadonnees_a_garder_pour_le_sommaire_bp_2019-10-17|Metadonnées voix off]]
public/antract/antract_corpus_voixoff.1571144244.txt.gz · Dernière modification: 2019/10/15 14:57 par matthieu.decorde@ens-lyon.fr