Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_voixoff

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:antract:antract_corpus_voixoff [2019/10/18 11:11]
slh@ens-lyon.fr
public:antract:antract_corpus_voixoff [2020/03/19 08:54] (Version actuelle)
matthieu.decorde@ens-lyon.fr [B bis) trier la liste de sélection de propriétés de structures et de propriétés de mots de la boite de dialogue de construction de références :]
Ligne 138: Ligne 138:
 Import des fichiers .trs transcriptions de vidéo émission (notices sommaires) d'​octobre 2019 (plus de transcriptions sujets). Import des fichiers .trs transcriptions de vidéo émission (notices sommaires) d'​octobre 2019 (plus de transcriptions sujets).
  
-Les sujets deviennent des structures internes des transcriptions d'​émissions.+Les sujets deviennent des structures internes ​(Sections Transcriber) ​des transcriptions d'​émissions.
  
-Métadonnées issues du tableau unique avec timing de sujets Totem + analye de correspondances audio/​vidéo <​code>​ANTRACT_AF_Notices_26sept19.xlsx</​code>​+Métadonnées issues du tableau unique avec timing de sujets Totem + analye de correspondances audio/​vidéo <​code>​ANTRACT_AF_Notices_3oct19.xlsx</​code>​
  
-Il y a une sélection de métadonnées + 6 nouvelles métadonnées :<​code>​antract_debut+Il y a une sélection de métadonnées ​faite par l'​INA ​+ 6 nouvelles métadonnées ​de l'​INA ​:<​code>​antract_debut
 antract_fin antract_fin
 antract_duree antract_duree
Ligne 155: Ligne 155:
  
 Le tableau pilote la création des unités textuelles, de leurs sections internes et les métadonnées des unités textuelles et sections internes : Le tableau pilote la création des unités textuelles, de leurs sections internes et les métadonnées des unités textuelles et sections internes :
-  ​* le fichier Excel par année n'est plus utilisé +  * trier le fichier Excel par date de diffusion (à faire)
-    * soit on a un seul gros fichier +
-    * soit on n'​utilise plus l'​unité de fichier pour construire le texte +
-  ​* trier le fichier Excel par date de diffusion (à vérifier ou à faire)+
   * l'​unité textuelle = émission   * l'​unité textuelle = émission
      * les émissions sont décrites par les lignes dont le 'Type de notice'​ est '​Notice sommaire'​      * les émissions sont décrites par les lignes dont le 'Type de notice'​ est '​Notice sommaire'​
Ligne 169: Ligne 166:
         * Notes du titre         * Notes du titre
         * Durée         * Durée
 +        * **à faire** :
 +          * retirer Genre et Type de date
 +          * ajouter colonnes des propositions de BP (colonnes sources 'nom source'​ + colonnes calculées 'nom interne'​)
      * <​html><​strike>​ses propriétés sont des métadonnées de sujets ? BP : a priori non, si on met ces informations concernant les sujets au niveau des sections internes sujet (cf. ci-après).</​strike></​html>​      * <​html><​strike>​ses propriétés sont des métadonnées de sujets ? BP : a priori non, si on met ces informations concernant les sujets au niveau des sections internes sujet (cf. ci-après).</​strike></​html>​
  
-Rq. [BP, 2019-10-17] : Dans la liste des propriétés des émissions ci-dessus, je viens de retirer deux items ("​Genre"​ et "Type de date") suite à l'​étude présentée ci-après.+**Remarques** : 
 +  * [BP, 2019-10-17] : Dans la liste des propriétés des émissions ci-dessus, je viens de retirer deux items ("​Genre"​ et "Type de date") suite à l'​étude présentée ci-après
 +  * Voir aussi [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​chantier_antract#​observations_sur_le_corpus|étude des métadonnées de BP du 1710]].
  
-=== Étude des métadonnées à garder pour le sommaire [BP, 2019-10-17] === 
- 
-En observant le corpus on trouve 4 paquets. 
- 
-**Paquet 1 : métadonnées utilisées, pertinentes,​ à garder** 
- 
-  * Date de diffusion 
-  * Durée 
-  * Identifiant de la notice 
-  * Nom fichier segmenté (info) 
-  * Notes du titre 
-  * Titre propre 
- 
- 
-**Paquet 2 : métadonnées quasiment pas utilisées, sauf irrégularités documentaires,​ plutôt à supprimer ?** 
- 
-  * Genre : toutes les notices sommaires ont le genre égal à "​Presse filmée ;" sauf 1 : 
-<​code>​ 
-1958-01-01, AFE86003600,​ Presse filmée ; Rétrospective ;​ Regards sur la monde : 1957 Rétrospective1957 
-</​code>​ 
- 
-  * Nature de production : le champ est toujours vide sauf pour 14 notices qui ont "​Production propre",​ dont 12 de 1945 : 
-<​code>​ 
-1945-01-18, AFE86004414 Les Actualités Françaises : édition du 18 janvier 1945 La France signe la 
-1945-02-02, AFE86004416 Les Actualités Françaises : édition du 2 février 1945 Dans les Ardennes atrocités 
-1945-02-09, AFE86004417 Les Actualités Françaises : édition du 9 février 1945 Avance britannique dans la 
-1945-02-16, AFE86004418 Les Actualités Françaises : édition du 16 février 1945 Evacuation de civils de 
-1945-02-23, AFE86004419 Les Actualités Françaises : édition du 23 février 1945 Le général De Gaulle 
-1945-03-02, AFE86004420 Les Actualités Françaises : édition du 2 mars 1945 Nos ailes de demain 
-1945-03-09, AFE86004421 Les Actualités françaises : édition du 9 mars 1945 Prise de Cologne Après 
-1945-03-16, AFE86004422 Les Actualités Françaises : édition du 16 mars 1945 Vers l'​Indochine Bombardement 
-1945-03-23, AFE86004423 Les Actualités Françaises : édition du 23 mars 1945 Un cheminot parmi les 
-1945-03-30, AFE86004424 Les Actualités Françaises : édition du 30 mars 1945 Débarquement américain à Iwo 
-1945-04-06, AFE86004425 Les Actualités Françaises : édition du 6 avril 1945 Attaquede l'​Armée aéroportée 
-1945-04-13, AFE86004426 Les Actualités Françaises : édition du 13 avril 1945 Libération des stalags en 
-1951-03-22, AFE86004736 LES ACTUALITES FRANCAISES : EDITION DU 22 MARS 1951 Championnat du monde de 
-1963-05-15, AFE86003880 LES ACTUALITES FRANCAISES : EDITION DU 15 MAI 1963 La commémoration du 8 
-</​code>​ 
- 
-  * Producteurs (Aff.) : Le champ est toujours vide sauf pour les mêmes notices que Nature de production, +1 : 
-<​code>​ 
-1945-01-18, AFE86004414,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 18 janvier 1945 La France signe la 
-1945-02-02, AFE86004416,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 2 février 1945 Dans les Ardennes atrocités 
-1945-02-09, AFE86004417,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 9 février 1945 Avance britannique dans la 
-1945-02-16, AFE86004418,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 16 février 1945 Evacuation de civils de 
-1945-02-23, AFE86004419,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 23 février 1945 Le général De Gaulle 
-1945-03-02, AFE86004420,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 2 mars 1945 Nos ailes de demain 
-1945-03-09, AFE86004421,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités françaises : édition du 9 mars 1945 Prise de Cologne Après 
-1945-03-16, AFE86004422,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 16 mars 1945 Vers l'​Indochine Bombardement 
-1945-03-23, AFE86004423,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 23 mars 1945 Un cheminot parmi les 
-1945-03-30, AFE86004424,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 30 mars 1945 Débarquement américain à Iwo 
-1945-04-06, AFE86004425,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 6 avril 1945 Attaquede l'​Armée aéroportée 
-1945-04-13, AFE86004426,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1945; Les Actualités Françaises : édition du 13 avril 1945 Libération des stalags en 
-1951-03-22, AFE86004736,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1951; LES ACTUALITES FRANCAISES : EDITION DU 22 MARS 1951 Championnat du monde de 
-1963-05-15, AFE86003880,​ Production propre, Producteur - Les Actualités Françaises (LAF) - Paris - 1963; LES ACTUALITES FRANCAISES : EDITION DU 15 MAI 1963 La commémoration du 8 
-1965-06-16, AFE86003989,​ , Producteur - Les Actualités Françaises (LAF) - Paris - 1965; LES ACTUALITES FRANCAISES : EDITION DU 16 JUIN 1965 LE TRIOMPHE DE WHITE 
-</​code>​ 
- 
-  * Résumé : 5 notices sommaires ont un résumé : 
-    * pour 4 ce sont des indications sur le générique en qq mots : 
-<​code>​ 
-1945-06-15, AFE86004435 ACTUALITES FRANCAISES : EDITION DU 15 JUIN 1945 Débute par un carton " Les Actualités Françaises " année 1945 - N 
-1947-01-02, AFE86004516 ACTUALITES FRANCAISES : EDITION DU 2 JANVIER 1947 Avec générique " carte " début et fin Match de boxe à Wembley 
-1949-01-06, AFE86004621 ACTUALITES FRANCAISES : EDITION DU 6 JANVIER 1949 Générique " carte " LES CITOYENS DU MONDE A BERLIN - Défilé des 
-1960-05-18, AFE86003724 ACTUALITES FRANCAISES : EDITION DU 18 MAI 1960 " EXPEDIEES DE PARIS PAR AIR- FRANCE"​ en surimpression sur générique animé 
-</​code>​ 
-    * pour 1 seule (présentée comme "​rétrospective"​) c'est une grosse énumération des sujets abordés : 
-<​code>​ 
-1958-01-01, AFE86003600 New York Regards sur la monde : 1957 Rétrospective1957 : - Lancement par les Russes du Spoutnik - Drame dans la 
-</​code>​ 
- 
-  * Type de date : Une seule notice a "​Indéterminé"​ au lieu de "​Diffusé"​ : 
-<​code>​ 
-1969-03-05, AFE04020721,​ Indéterminé LES ACTUALITES FRANCAISES : EDITION DU 5 MARS 1969 ; EDITION DU 12 Mars 1969] 
-</​code>​ 
- 
-**Paquet 3 : métadonnées à valeur vide (ou constante), inutiles pour les sommaires** 
- 
-  * Descripteurs (Aff. Col.) 
-  * Générique (Aff. Col.) 
-  * Langue VO / VE 
-  * Lien notice principale 
-  * Séquences 
-  * Thématique 
-  * Type de notice 
- 
-**Paquet 4 : métadonnées pour la correspondance avec la vidéo** 
- 
-A priori pas pertinent pour l'​utilisation historienne du corpus. 
-À voir s'il faudrait quand même les garder et comment (ex. disponibles aux requêtes mais non affichées dans l'​édition). 
- 
-  * antract_debut 
-  * antract_fin 
-  * antract_duree 
-  * antract_video 
-  * antract_tc_type 
-  * antract_tc_date 
  
 ==== Sections internes "​sujet"​ ==== ==== Sections internes "​sujet"​ ====
  
-  * l'​unité textuelle est composée de structures '​sujet'​+  * l'​unité textuelle est composée de structures 'div @type=sujet'
     * les sujets sont décrits par les lignes dont le 'Type de notice'​ est '​Notice sujet'     * les sujets sont décrits par les lignes dont le 'Type de notice'​ est '​Notice sujet'
     * les (structures) sujets sont identifié(e)s par un identifiant de notice sujet (colonne '​Identifiant de la notice'​),​ et dans la colonne 'Lien notice principale'​ on trouve l'​identifiant de la notice principale (notice sommaire, émission) correspondante     * les (structures) sujets sont identifié(e)s par un identifiant de notice sujet (colonne '​Identifiant de la notice'​),​ et dans la colonne 'Lien notice principale'​ on trouve l'​identifiant de la notice principale (notice sommaire, émission) correspondante
Ligne 304: Ligne 209:
 Générique (Aff. Col.) Générique (Aff. Col.)
 </​code>​ </​code>​
 +
 +==== Nouvelle proposition pour le choix, l'​ordre et la présentation des métadonnées ====
 +
 +C'est une proposition de Bénédicte le 18 octobre 2019, dans le contexte de la préparation du corpus VOIXOFF avec la nouvelle architecture où les sujets sont inclus dans les journaux (sommaires) et où il n'y a plus de sujets isolés.
 +
 +En effet, dans ce nouveau contexte, le choix et l'​ordre des métadonnées adoptés pour les notices paraît moins pertinent car certaines métadonnées qui ne sont plus utilisées sont mises en valeur en tête de list
 +
 +Elle est notée ici, dans une section à part, pour étude et discussion, mais sera sans doute pour plus tard, car Serge propose de rester proche de l'​état précédent,​ notamment en termes de métadonnées à garder/​supprimer,​ en phase d'​expérimentation et de débuggage.
 +
 +**Propriétés à présenter pour la structure '​text'​ (= journal = notice sommaire)**
 +
 +  * identifiantdelanotice
 +  * titrepropre
 +  * notesdutitre
 +
 +[si possible dans une colonne à gauche :]
 +  * datedediffusion
 +  * datedediffusionjoursemaine
 +  * duree
 +  * nomfichiersegmente [à confirmer]
 +  * antractvideo
 +
 +[si possible dans une colonne à droite, si besoin moins large :]
 +  * antractdebut
 +  * antractfin
 +  * antractduree
 +  * antracttctype
 +  * antracttcdate
 +
 +**Propriétés à présenter pour la structure '​sujet'​ (= notices sujets)**
 +
 +  * identifiantdelanotice
 +  * titrepropre
 +  * notesdutitre
 +
 +[si possible dans une colonne à gauche :]
 +  * datedediffusion
 +  * datedediffusionjoursemaine
 +  * typededate
 +  * duree
 +  * genre
 +  * languevove
 +  * naturedeproduction
 +  * producteurs
 +  * thematique
 +
 +[si possible dans une colonne à droite, si besoin moins large :]
 +  * nomfichiersegmente [à confirmer]
 +  * antractvideo
 +  * antractdebut
 +  * antractfin
 +  * antractduree
 +  * antracttctype
 +  * antracttcdate
 +  * 
 +[données textuelles des notices sauf titre propre :]
 +  * resume
 +  * sequences
 +  * descripteurs
 +  * generique
 +
 +**Autres métadonnées**
 +
 +Les propriétés réécrivant la date sous différents formats (**datedediffusionannee**,​ **datedediffusionmois**,​ **datedediffusionjour**,​ **datedediffusiontri**) ne sont si possible pas affichées dans l'​édition (pour alléger) mais sont disponibles pour l'​interrogation. L'​utilisateur peut voir leur existence et leur format dans les propriétés du corpus.
 +
 +Les colonnes **Type de notice** et **Lien notice principale** sont utilisées pour construire et structurer le corpus, mais ne sont pas reprises dans les propriétés.
 +
 +À part ces deux cas, toutes les métadonnées utilisées et disponibles ont été listées ci-dessus.
  
 ==== Retour à la vidéo ==== ==== Retour à la vidéo ====
Ligne 324: Ligne 297:
  
 Cette phase fait également évoluer la liseuse vidéo pour la lecture en streaming avec authentification. Cette phase fait également évoluer la liseuse vidéo pour la lecture en streaming avec authentification.
 +
 +===== V0.3 =====
 +
 +Comme V0.2 plus :
 +
 +==== A) recréer les métadonnées de datation de AFNOTICES : datedediffusiontri,​ datedediffusionannee...====
 +
 +Pour :
 +  * -> tris chronologiques en concordance
 +  * -> faire des partitions chronologiques
 +
 +Comment :
 +  * => créer utilitaire enhance_metadata (xlsx -> xlsx)
 +  * => récupérer le code dans les macros de préparation de AFNOTICES
 +
 +==== B) calculer différemment les références de Concordances et de Références====
 +
 +  * actuellement (AFVOIXOFFV02,​ date de création: 15 novembre 2019, 12h41) : id, locuteur, time code
 +  * souhaité : date, id, time code
 +
 +Comment :
 +  * => nouveau paramètre d'​import '​references_values'​ : la valeur est une liste de désignations de propriétés de structures ou de propriétés de mots, séparées par une virgule
 +    * on parcourt cette liste pour générer la propriété '​ref'​ de chaque mot
 +  * => bonus : nouveau paramètre '​references_pattern'​ : la valeur est une chaine de sprintf, exemple "%s, p. %s" (il faut autant de '​%s'​ que de valeurs dans le paramètre '​references_values'​)
 +    * la propriété '​ref'​ de chaque mot prend un sprintf(references_pattern,​ liste des references_values)
 +
 +==== B bis) trier la liste de sélection de propriétés de structures et de propriétés de mots de la boite de dialogue de construction de références :====
 + 
 +Comment :
 +  * 1) par propriétés de mots : "​word"​ puis alphabétiquement
 +  * 2) puis, par propriétés de structures alphabétiques
 +  * il doit déjà y avoir un ticket pour ça
 +  * appliquer cette stratégie à toutes les listes de sélections
 +
 +==== C) nettoyer caractère invisible====
 +
 +  * diagnostic : s'​intercale entre le type et la valeur de chaque descripteur dans la propriété descripteursafflig,​ on l'​observe par exemple en faisant les requêtes suivantes :
 +<​div>​[_.div_descripteursafflig="​.*DEL.*"​] -> des résultats
 +<​div>​[_.div_descripteursafflig="​.*DEL:​.*"​] -> des résultats
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ .*"] -> des résultats
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ P.*"] -> plus rien
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ Pologne.*"​] -> (rien non plus a fortiori)
 +<​div>​[_.div_descripteursafflig="​.*DEL:​ .P.*"​%c] -> des résultats
 +
 +Comment :
 +  * => récupérer le code dans les macros de préparation de AFNOTICES ?
 +
 +==== D) métadonnées d'​émissions (text)====
 +
 +  * supprimer de l'​affichage de l'​édition :
 +    * elapsed_time
 +    * subtitle
 +    * textorder
 +  * ajouter '​datedediffusionjoursemaine'​ dans l'​édition
  
 ====== Retours ====== ====== Retours ======
Ligne 378: Ligne 405:
   * Les notices isolées rendent compte de sujets d'​éditions régionales,​ qu'on ne retrouve pas dans les notices sommaires.   * Les notices isolées rendent compte de sujets d'​éditions régionales,​ qu'on ne retrouve pas dans les notices sommaires.
  
 +
 +====== Observations sur le corpus ======
 +
 +Voir [[public:​antract:​observations_corpus#​etude_des_metadonnees_a_garder_pour_le_sommaire_bp_2019-10-17|Metadonnées voix off]]
public/antract/antract_corpus_voixoff.1571389902.txt.gz · Dernière modification: 2019/10/18 11:11 par slh@ens-lyon.fr