Projet 9/11

Description du contexte

Étudier l'évolution temporelle du souvenir et les facteurs modulants grâce à l'analyse textométrique de témoignages.

Objectif 1

Observe-t-on une évolution temporelle du souvenir? (changements dans les témoignages au cours du temps)

Objectif 2

Quels sont les facteurs modulants cette évolution? (âge, sexe, ressenti, proximité)

Description du corpus

Témoignages en anglais sur les attentats du 11 septembre 2001 à New York recueillis à différentes périodes entre 1 semaine et 10 ans après l'évènement.

  • 206 participants [BP : en se limitant aux participants ayant répondu aux quatre périodes ; mais sinon le corpus complet compte de l'ordre de 1000 à 2000 participants -environ 1200 répondants à chaque campagne]
  • questionnaires
  • à l'origine en txt
  • metadata

Méthode de travail

On précise les objectifs, moyens et étapes dans ce wiki.

On partage les corpus sources et binaire, etc. dans le disque partagé de l'équipe :

  • TXT réorganisé + macros VBS
  • XML encodé + macros VBS
  • etc.

Tous les fichiers se trouvent dans le dossier partagé SpUV/Matrice/9-11.

Son fichier README décrit le contenu du dossier.

La question de la transmission du corpus est traitée par ailleurs.

Transmission du corpus

Possibilité de transmettre le corpus aux partenaires

  • clarification de consentement, propriété et de licence de diffusion
  • lieu de diffusion
    • Matrice ?
  • forme de diffusion
    • téléchargement ?
    • accès en ligne par un portail ?

Cycles d'analyse

L'idée est d'itérer un cycle comprenant les étapes suivantes où un des éléments avance à chaque cycle :

  • préparation des fichiers sources
  • transformations automatiques
    • macros VBS
    • macro ou scripts TXM
    • feuilles XSL de TXM
  • import dans TXM
  • configurations types
    • sous-corpus
    • partitions
  • analyses
    • analyses factorielles
    • spécificités

FD a déjà réalisé une première étape qui est décrite par le cycle 0.

La description du cycle 1 sert à spécifier ce qu'il faut faire pour l'étape d'après.

Cycle 0

préparation des fichiers sources

Transfert TXT → UTF-8 → XML

transformations automatiques

  • macros VBS
    • normalisation : abréviations, apostrophe, tiret
    • tokenization
    • repérage de 'Bin Laden', 'Al Qaeda' (dont variantes d'écriture)
    • repérage des heures, et de diverses formulations de la date du 11 septembre
    • réorganisation des fichiers (regroupement et arborescence)

FD: difficulté rencontrée avec les apostrophes → remplacement des apostrophes courbes en ' non automatique réalisée avant d'utiliser les macros

import dans TXM

Ne pas commencer le nom d'un corpus par un chiffre.

configurations types

  • sous-corpus Q1
    • partition périodes

Analyses

Objectif 1 : Observe-t-on une évolution temporelle du souvenir?

Analyse factorielle des périodes de la Q1 représentées par leurs mots → organisation chronologique à expliquer.

Cycle 1

préparation des fichiers sources

  • nommer tous les éléments XML en anglais
  • possibilité d'avoir plusieurs attributs par balise et de les nommer assez librement (pas toujours “type” !)
    • normaliser les identifiants de questions par mot-clé (exemple: <question code=“q1_t1” about=“first account” period =“t1”>)
  • tokenisation compatible avec le modèle EN de TreeTagger (', -, mots particuliers, etc.)
  • gestion des noms propres
  • structuration XML et annotations
    • plusieurs attributs par balise XML (exemple: <question code=“q1_t1” about=“first account” period =“t1”>)

transformations automatiques

  • explorer la projection de métadonnées sur la structure <question>

import dans TXM

Ne pas commencer le nom d'un corpus par un chiffre.

configurations types

  • sous-corpus
    • Q1
  • partitions
    • périodes

BP : Ou encore dit autrement :

  • sous-corpus Q1
    • partition périodes
      • survey_periode=t1, t2, t3 et t4
    • partition périodes x une métadonnée (comme le ressenti par exemple)
      • en tenant compte du domaine de la métadonnées soit d'une réinterprétation du domaine en fonction de l'équilibre de la population
      • exemple 1 (domaine) : survey_periode=t1 avec text_sadnesst1 (1 à 2, 2 à 3, 3 à 4 et 4 à 5)
      • exemple 2 (réinterprétation du domaine): survey_periode=t1 avec text_sadnesst1 avec balance(1 à 2, 2 à 3, 3 à 4 et 4 à 5)

Analyses

Objectif 1 : Observe-t-on une évolution temporelle du souvenir?

Analyse factorielle des périodes de la Q1 représentées par leurs mots → organisation chronologique à expliquer.

Eléments de méthodologie à voir :

  • contrôler l'ordre des parties dans les représentations graphiques tyge graphe de spécificités
  • intérêt potentiel des nullax
  • attention au cas de figure où une partie pourrait être colorée par un individu
  • possibilité de fonder l'analyse sur d'autres variables que tous les “word” (lemmes, certaines pos, champ lexical de l'émotion, etc.)
  • signification du paramètre de choix des marges de la table lexicale
  • possibilité d'utiliser les spécificités pour aider à interpréter l'AFC
  • possibilité d'utiliser les spécificités pour “aérer” l'AFC (macro SelectSpecif)
    • FD : Comment faire cela? Je n'arrive pas à trouver la macro SelectSpecif.
    • MD : oops, la macro n'est pas encore publiée sur sourceforge, il faut la récupérer directement depuis les fichiers sources de TXM : https://svn.code.sf.net/p/txm/code/trunk/Toolbox/trunk/org.textometrie.toolbox/src/groovy/org/txm/macroproto/SelectSpecifMacro.groovy
    • FD : Une fois la macro récupérée, il faut l'installée dans le dossier HOME/TXM/scripts/macros/org/txm/macros, avec HOME= C:\Users\?Nom?)
    • FD : Comment ça marche, SelectSpecif pour “aérer” une AFC?
      • Sélectionner le résultat de la spécificité dans la vue Corpus et lancer la macro avec un double-click
      • Préciser le seuil de spécif (sélection des mots dont l'indice en valeur absolue est supérieur au paramètre “seuil”) et le nombre de mots max souhaité pour chaque partie (il peut y en avoir moins s'il n'y a pas assez de scores de spécificité au-dessus du seuil)
      • Où se trouve le résultat?? = Regarder dans la console! Il y a une requête des mots avec des spécif supérieures au seuil fixé
      • Créer un index avec cette requête
      • Créer une table lexicale à partir de l'index
      • Lancer une AFC sur cette table
      • Et voilà une AFC “aérée”!!!
  • AFC a priori plus intéressante sur les partitions croisées (vs. juste les 4 périodes)
  • biblio sur AFC : Volle 1980 (notamment sections “les aides à l'interprétation” et “pourquoi et comment il faut utiliser les aides à l'interprétation”), Fénelon 1981 (voir références complètes sur le site textométrie)

Cycle 2

préparation des fichiers sources

  • tokenisation compatible avec le modèle EN de TreeTagger (', -, mots particuliers, etc.)
  • gestion des noms propres
  • reprise des métadonées
    • les métadonnées numériques aussi codée en classe avant l'import des données (exemples, pour le ressenti émotionnel : extrême, forte, moyenne, faible ou pour l'âge: jeunes, intermédiaires, âgés)

transformations automatiques

  • explorer la projection de métadonnées sur la structure <question>
    • Plutôt utilisation de la partition croisée périodes x une métadonnée. Pour simplifier l'utilisation de cette macro, les métadonnées numériques sont aussi codée en classe
  • repérage des détails temporels et contextuels, émotionnels (heures, lieux, émotions, 11 septembre …) et projection de l'information au niveau de la structure <w>
    • balisage des détails temporels et contextuels au niveau du mot en ajoutant l’attribut “detail”
      • détails temporels = les heures (exemples: <w detail = “hour”>9:50</w> ; <w detail = “hour”>9 am</w>)
      • détails temporels = le 11 septembre (exemples: <w detail = “911”>9/11</w> ; <w detail = “911”>Septembre 11, 2001</w>)
      • détails contextuels = les lieux (exemples: <w detail = “place”>1st avenue</w> ; <w detail = “place”>14th St</w>)
    • balisage des émotions au niveau du mot
      • création “manuelle” d'une liste de mots émotionnels à partir de listes type dictionnaire et à partir de la lecture des témoignages
      • exemples: <w detail = “feeling”>afraid</w> ; <w detail = “feeling”>anxious</w>
      • FD: Aurais aimé mettre au niveau des mots l'information sur leur valence et leur intensité émotionnelle en utilisant des normes (Affective Norms for English Words, Bradley & Lang, 1999 ou la Norme de Warriner et al., 2013 ⇒ 13.915 english lemmas with valence, arousal and dominance)
        • Pour faire cela avec le script de création des XML, il faudrait décliner les lemmes (pluriel, verbes conjugués …)
        • Peut-on (ou pourrait-on ) faire ce change de chose depuis TXM? c-a-d ajouter des balises dans les corpus déjà importés dans TXM à partir de liste de mot (comme ici les normes) ou à partir de tables lexicales que nous créons dans TXM?

import dans TXM

Ne pas commencer le nom d'un corpus par un chiffre.

configurations types

  • sous-corpus Q1
    • partition périodes
      • survey_periode=t1, t2, t3 et t4
    • partition périodes x une métadonnée (comme le ressenti par exemple)
      • en tenant compte du domaine de la métadonnées soit d'une réinterprétation du domaine en fonction de l'équilibre de la population
      • exemple 1 (domaine) : survey_periode=t1 avec text_sadnesst1 (1 à 2, 2 à 3, 3 à 4 et 4 à 5)
      • exemple 2 (réinterprétation du domaine): survey_periode=t1 avec text_sadnesst1 avec balance(1 à 2, 2 à 3, 3 à 4 et 4 à 5)
        • FD : Avec les métadonnées codées en classe avant import (cf ci-dessus) on obtient par exemple pour sadness: t1_extreme, t1_high, t1_medium, t1_low, … pour chaque temps

Analyses

Objectif 1 : Observe-t-on une évolution temporelle du souvenir?

Objectif 2 : Quels sont les facteurs modulants cette évolution?

public/projets_matrice_avec_txm_fd.txt · Dernière modification: 2016/02/15 16:01 par fanny.degeilh@gmail.com