Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_voixoff

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:antract:antract_corpus_voixoff [2019/11/05 16:32]
slh@ens-lyon.fr [Unités textuelles]
public:antract:antract_corpus_voixoff [2020/03/19 08:54] (Version actuelle)
matthieu.decorde@ens-lyon.fr [B bis) trier la liste de sélection de propriétés de structures et de propriétés de mots de la boite de dialogue de construction de références :]
Ligne 140: Ligne 140:
 Les sujets deviennent des structures internes (Sections Transcriber) des transcriptions d'​émissions. Les sujets deviennent des structures internes (Sections Transcriber) des transcriptions d'​émissions.
  
-Métadonnées issues du tableau unique avec timing de sujets Totem + analye de correspondances audio/​vidéo <​code>​ANTRACT_AF_Notices_26sept19.xlsx</​code>​+Métadonnées issues du tableau unique avec timing de sujets Totem + analye de correspondances audio/​vidéo <​code>​ANTRACT_AF_Notices_3oct19.xlsx</​code>​
  
 Il y a une sélection de métadonnées faite par l'INA + 6 nouvelles métadonnées de l'INA :<​code>​antract_debut Il y a une sélection de métadonnées faite par l'INA + 6 nouvelles métadonnées de l'INA :<​code>​antract_debut
Ligne 166: Ligne 166:
         * Notes du titre         * Notes du titre
         * Durée         * Durée
-        * retirer Genre et Type de date  (à faire)+        ​* **à faire** : 
 +          ​* retirer Genre et Type de date 
 +          * ajouter colonnes des propositions de BP (colonnes sources 'nom source'​ + colonnes calculées 'nom interne'​)
      * <​html><​strike>​ses propriétés sont des métadonnées de sujets ? BP : a priori non, si on met ces informations concernant les sujets au niveau des sections internes sujet (cf. ci-après).</​strike></​html>​      * <​html><​strike>​ses propriétés sont des métadonnées de sujets ? BP : a priori non, si on met ces informations concernant les sujets au niveau des sections internes sujet (cf. ci-après).</​strike></​html>​
  
-Rq. [BP, 2019-10-17] : Dans la liste des propriétés des émissions ci-dessus, je viens de retirer deux items ("​Genre"​ et "Type de date") suite à l'​étude présentée ci-après. +**Remarques** : 
- +  * [BP, 2019-10-17] : Dans la liste des propriétés des émissions ci-dessus, je viens de retirer deux items ("​Genre"​ et "Type de date") suite à l'​étude présentée ci-après. 
-Voir aussi [[public:antract:​antract_observations_corpus|étude des métadonnées de BP du 1710]].+  ​* ​Voir aussi [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​chantier_antract#​observations_sur_le_corpus|étude des métadonnées de BP du 1710]].
  
  
 ==== Sections internes "​sujet"​ ==== ==== Sections internes "​sujet"​ ====
  
-  * l'​unité textuelle est composée de structures '​sujet'​+  * l'​unité textuelle est composée de structures 'div @type=sujet'
     * les sujets sont décrits par les lignes dont le 'Type de notice'​ est '​Notice sujet'     * les sujets sont décrits par les lignes dont le 'Type de notice'​ est '​Notice sujet'
     * les (structures) sujets sont identifié(e)s par un identifiant de notice sujet (colonne '​Identifiant de la notice'​),​ et dans la colonne 'Lien notice principale'​ on trouve l'​identifiant de la notice principale (notice sommaire, émission) correspondante     * les (structures) sujets sont identifié(e)s par un identifiant de notice sujet (colonne '​Identifiant de la notice'​),​ et dans la colonne 'Lien notice principale'​ on trouve l'​identifiant de la notice principale (notice sommaire, émission) correspondante
Ligne 295: Ligne 297:
  
 Cette phase fait également évoluer la liseuse vidéo pour la lecture en streaming avec authentification. Cette phase fait également évoluer la liseuse vidéo pour la lecture en streaming avec authentification.
 +
 +===== V0.3 =====
 +
 +Comme V0.2 plus :
 +
 +==== A) recréer les métadonnées de datation de AFNOTICES : datedediffusiontri,​ datedediffusionannee...====
 +
 +Pour :
 +  * -> tris chronologiques en concordance
 +  * -> faire des partitions chronologiques
 +
 +Comment :
 +  * => créer utilitaire enhance_metadata (xlsx -> xlsx)
 +  * => récupérer le code dans les macros de préparation de AFNOTICES
 +
 +==== B) calculer différemment les références de Concordances et de Références====
 +
 +  * actuellement (AFVOIXOFFV02,​ date de création: 15 novembre 2019, 12h41) : id, locuteur, time code
 +  * souhaité : date, id, time code
 +
 +Comment :
 +  * => nouveau paramètre d'​import '​references_values'​ : la valeur est une liste de désignations de propriétés de structures ou de propriétés de mots, séparées par une virgule
 +    * on parcourt cette liste pour générer la propriété '​ref'​ de chaque mot
 +  * => bonus : nouveau paramètre '​references_pattern'​ : la valeur est une chaine de sprintf, exemple "%s, p. %s" (il faut autant de '​%s'​ que de valeurs dans le paramètre '​references_values'​)
 +    * la propriété '​ref'​ de chaque mot prend un sprintf(references_pattern,​ liste des references_values)
 +
 +==== B bis) trier la liste de sélection de propriétés de structures et de propriétés de mots de la boite de dialogue de construction de références :====
 + 
 +Comment :
 +  * 1) par propriétés de mots : "​word"​ puis alphabétiquement
 +  * 2) puis, par propriétés de structures alphabétiques
 +  * il doit déjà y avoir un ticket pour ça
 +  * appliquer cette stratégie à toutes les listes de sélections
 +
 +==== C) nettoyer caractère invisible====
 +
 +  * diagnostic : s'​intercale entre le type et la valeur de chaque descripteur dans la propriété descripteursafflig,​ on l'​observe par exemple en faisant les requêtes suivantes :
 +<​div>​[_.div_descripteursafflig="​.*DEL.*"​] -> des résultats
 +<​div>​[_.div_descripteursafflig="​.*DEL:​.*"​] -> des résultats
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ .*"] -> des résultats
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ P.*"] -> plus rien
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ Pologne.*"​] -> (rien non plus a fortiori)
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ .P.*"​%c] -> des résultats
 +
 +Comment :
 +  * => récupérer le code dans les macros de préparation de AFNOTICES ?
 +
 +==== D) métadonnées d'​émissions (text)====
 +
 +  * supprimer de l'​affichage de l'​édition :
 +    * elapsed_time
 +    * subtitle
 +    * textorder
 +  * ajouter '​datedediffusionjoursemaine'​ dans l'​édition
  
 ====== Retours ====== ====== Retours ======
Ligne 349: Ligne 405:
   * Les notices isolées rendent compte de sujets d'​éditions régionales,​ qu'on ne retrouve pas dans les notices sommaires.   * Les notices isolées rendent compte de sujets d'​éditions régionales,​ qu'on ne retrouve pas dans les notices sommaires.
  
 +
 +====== Observations sur le corpus ======
 +
 +Voir [[public:​antract:​observations_corpus#​etude_des_metadonnees_a_garder_pour_le_sommaire_bp_2019-10-17|Metadonnées voix off]]
public/antract/antract_corpus_voixoff.1572967971.txt.gz · Dernière modification: 2019/11/05 16:32 par slh@ens-lyon.fr