Outils pour utilisateurs

Outils du site


public:umr_chs_antract:analyses_corpus:standardisation_sujets

Standardisation des sujets des Actualités Française

Problématique

L’hypothèse est la suivante : il y a standardisation des sujets des Actualités Française (voire de toutes les firmes d’actualités) et celle-ci se manifeste par la répétition d’un même style de montage. Il y a un enchaînement récurrent des valeurs de plans (éventuellement des mouvements et des axes de caméra) d’un sujet à l’autre. Par exemple, plan large, puis plan moyen, ou mouvement panoramique d’introduction, puis plan serré, etc. Cette standardisation se manifeste(rait) également à travers la durée moyenne des plans et leur nombre dans un sujet.

Question posée au corpus

Peut-on s'appuyer sur la succession de mentions de valeurs de plan dans les notices documentaires (section Séquences, ou à défaut éventuellement Résumé) pour analyser la succession des plans dans les films d'actualités correspondants ? Et ce faisant caractériser une évolution de “grammaire de montage”.

Pistes d'analyse textométrique

1. Étude des données disponibles (établissement du corpus de travail)

Qualité du lien entre les mentions de plans dans les notices et les plans observés dans les films

  • les mentions de plans peuvent prendre plusieurs formes :
    • variantes d'acronymes : “PANO”, “Pano” et “pano”…
    • variantes d'expressions : “Panoramique sur la”, “Panoramique sur”, “Panoramique”
  • vérifier que ces “valeurs de plans” sont bien assez homogènes, cohérentes, complètes (représentatives ?) par rapport à ce qu'on peut voir dans les films. Sur un échantillon, pour un même documentaliste (si on a l'information) ou période de production (à définir)
    • une mention de plan peut être absente, fausse, etc.
    • des notices peuvent contenir des mentions de plans complètes ou partielles ou pas
  • cette vérification semble difficilement automatisable, en tout cas avec les outils de la textométrie.

Typologie des valeurs de plan : quelle nomenclature ?

  • Un modèle INA destiné aux documentalistes existe peut-être.
  • Franck avait transmis une proposition de typologie en début de projet (cf. document joint au mail de Pascale 18 juin 2018 8h12) :
    • Plan général (regroupant plan d’ensemble et plan général)
    • Plan large
    • Plan moyen
    • Plan rapproché (regroupant rapprochés taille et poitrine ainsi que plan américain)
    • Gros plan
    • Très gros plan
    • Titres
    • Graphiques
  • il serait intéressant de s'appuyer sur qlqchose de plus large possible (international, transdisciplinaire, déjà utilisé dans des formats informatiques…), quitte à l'étendre. Y a-t-il un format informatique standard pour les scripts (shooting script) qui serait utilisé par les logiciels d'édition de scripts ?

Formulation de ces valeurs de plan dans les textes

  • on a vu en formation du 15 octobre 2018 qu'une requête “simple” sur les abréviations de valeurs de plan était insuffisante
[word="-*(VG|GP|PP|PM|PANO|Pano|PA|PG|GPP|PR|DP|VA|TRAV(EL)?|VP|VSG|VE|ZAV)"]

Peut-on identifier les différentes manières de mentionner une même valeur de plan ?

  • voir aussi le mail de BP 16 octobre 2018, 16h11.

Recodage du corpus par annotation

  • l'annotation de mots dans TXM, par exemple par concordance, pourrait être une façon de normaliser les mentions de plans. Le travail d'analyse s'appuyerait alors les annotations (normalisées ou homogénéisées) plutôt que sur les expressions “brutes” du corpus
  • l'annotation pourrait également concerner des notices, pour les catégoriser en “mentions de plans complètes” ou “mentions de plans partielles” ou “pas de mentions de plans” par exemple, pour créer des configurations de corpus spécifiques

2. Scénarios d'analyse

A- Scénario par recherche de segments répétés discontinus

  • annotation en concordance d'une propriété lexicale 'plan' qui code la valeur de plan (sur un seul mot quand il s'agit d'une expression)
  • INDEX avec “zones”, par exemple INDEX sur la propriété “plan” de
@[plan!=""][plan=""]* @[plan!=""][plan=""]* @[plan!=""] within notice

Simulation de résultat :

général rapproché rapproché   113
large   rapproché moyen        80
titre   général   rapproché    62
etc.
Remarque : suppose un développement (capacité à traiter des requêtes CQL avec plusieurs “targets”), mais on a déjà un prototype de macro pour une sortie en concordances. (Pose cependant la question de la gestion du retour au texte.)

B- Scénario par recherche de segments répétés dans une projection du corpus

  • annotation en concordance d'une propriété lexicale 'plan' qui code la valeur de plan (sur un seul mot quand il s'agit d'une expression)
  • opérer une projection du corpus : on génère un autre corpus mais qui ne contient que les structures resume et sequences, et dont les word sont la valeur de la propriété 'plan' quand elle n'est pas nulle.
Remarque : suppose un développement, évoqué dans l'ANR Democrat : création d'un corpus par projection de certains mots, avec certaines propriétés (la propriété word pouvant être échangée avec une autre propriété par exemple). Envisagé dans Democrat pour représenter le corpus comme une succession d'unités-mentions, sans considérer les mots dans ou entre les mentions : cela ouvre le champ à certaines mesures.
  • INDEX de
[][][] within notice

Simulation de résultat (identique au cas précédent mais donc obtenu par une autre voie) :

général rapproché rapproché   113
large   rapproché moyen        80
titre   général   rapproché    62
etc.
public/umr_chs_antract/analyses_corpus/standardisation_sujets.txt · Dernière modification: 2019/10/01 18:05 par slh@ens-lyon.fr