Outils pour utilisateurs

Outils du site


public:projets_matrice_avec_txm_fd

Ceci est une ancienne révision du document !


Projet 9/11

Description du contexte

Étudier l'évolution temporelle du souvenir et les facteurs modulants grâce à l'analyse textométrique de témoignages.

Objectif 1

Observe-t-on une évolution temporelle du souvenir? (changements dans les témoignages au cours du temps)

Objectif 2

Quels sont les facteurs modulants cette évolution? (âge, sexe, ressenti, proximité)

Description du corpus

Témoignages en anglais sur les attentats du 11 septembre 2001 à New York recueillis à différentes périodes entre 1 semaine et 10 ans après l'évènement.

  • 206 participants [BP : en se limitant aux participants ayant répondu aux quatre périodes ; mais sinon le corpus complet compte de l'ordre de 1000 à 2000 participants -environ 1200 répondants à chaque campagne]
  • questionnaires
  • à l'origine en txt
  • metadata

Méthode de travail

On précise les objectifs, moyens et étapes dans ce wiki.

On partage les corpus sources et binaire, etc. dans le disque partagé de l'équipe :

  • TXT réorganisé + macros VBS
  • XML encodé + macros VBS
  • etc.

Tous les fichiers se trouvent dans le dossier partagé SpUV/Matrice/9-11.

Son fichier README décrit le contenu du dossier.

La question de la transmission du corpus est traitée par ailleurs.

Transmission du corpus

Possibilité de transmettre le corpus aux partenaires

  • clarification de consentement, propriété et de licence de diffusion
  • lieu de diffusion
    • Matrice ?
  • forme de diffusion
    • téléchargement ?
    • accès en ligne par un portail ?

Cycles d'analyse

L'idée est d'itérer un cycle comprenant les étapes suivantes où un des éléments avance à chaque cycle :

  • préparation des fichiers sources
  • transformations automatiques
    • macros VBS
    • macro ou scripts TXM
    • feuilles XSL de TXM
  • import dans TXM
  • configurations types
    • sous-corpus
    • partitions
  • analyses
    • analyses factorielles
    • spécificités

FD a déjà réalisé une première étape qui est décrite par le cycle 0.

La description du cycle 1 sert à spécifier ce qu'il faut faire pour l'étape d'après.

Cycle 0

préparation des fichiers sources

Transfert TXT → UTF-8 → XML

transformations automatiques

  • macros VBS
    • normalisation : abréviations, apostrophe, tiret
    • tokenization
    • repérage de 'Bin Laden', 'Al Qaeda' (dont variantes d'écriture)
    • repérage des heures, et de diverses formulations de la date du 11 septembre
    • réorganisation des fichiers (regroupement et arborescence)

FD: difficulté rencontrée avec les apostrophes → remplacement des apostrophes courbes en ' non automatique réalisée avant d'utiliser les macros

import dans TXM

Ne pas commencer le nom d'un corpus par un chiffre.

configurations types

  • sous-corpus Q1
    • partition périodes

Analyses

Objectif 1 : Observe-t-on une évolution temporelle du souvenir?

Analyse factorielle des périodes de la Q1 représentées par leurs mots → organisation chronologique à expliquer.

Cycle 1

préparation des fichiers sources

  • nommer tous les éléments XML en anglais
  • possibilité d'avoir plusieurs attributs par balise et de les nommer assez librement (pas toujours “type” !)
    • normaliser les identifiants de questions par mot-clé (exemple: <question code=“q1_t1” about=“first account” period =“t1”>)
  • tokenisation compatible avec le modèle EN de TreeTagger (', -, mots particuliers, etc.)
  • gestion des noms propres
  • structuration XML et annotations
    • plusieurs attributs par balise XML (exemple: <question code=“q1_t1” about=“first account” period =“t1”>)

transformations automatiques

  • explorer la projection de métadonnées sur la structure <question>

import dans TXM

Ne pas commencer le nom d'un corpus par un chiffre.

configurations types

  • sous-corpus
    • Q1
  • partitions
    • périodes

BP : Ou encore dit autrement :

  • sous-corpus Q1
    • partition périodes
      • survey_periode=t1, t2, t3 et t4
    • partition périodes x une métadonnée (comme le ressenti par exemple)
      • en tenant compte du domaine de la métadonnées soit d'une réinterprétation du domaine en fonction de l'équilibre de la population
      • exemple 1 (domaine) : survey_periode=t1 avec text_sadnesst1 (1 à 2, 2 à 3, 3 à 4 et 4 à 5)
      • exemple 2 (réinterprétation du domaine): survey_periode=t1 avec text_sadnesst1 avec balance(1 à 2, 2 à 3, 3 à 4 et 4 à 5)

Analyses

Objectif 1 : Observe-t-on une évolution temporelle du souvenir?

Analyse factorielle des périodes de la Q1 représentées par leurs mots → organisation chronologique à expliquer.

Eléments de méthodologie à voir :

  • contrôler l'ordre des parties dans les représentations graphiques tyge graphe de spécificités
  • intérêt potentiel des nullax
  • attention au cas de figure où une partie pourrait être colorée par un individu
  • possibilité de fonder l'analyse sur d'autres variables que tous les “word” (lemmes, certaines pos, champ lexical de l'émotion, etc.)
  • signification du paramètre de choix des marges de la table lexicale
  • possibilité d'utiliser les spécificités pour aider à interpréter l'AFC
  • possibilité d'utiliser les spécificités pour “aérer” l'AFC (macro SelectSpecif)
    • FD : Comment faire cela? Je n'arrive pas à trouver la macro SelectSpecif.
    • MD : oops, la macro n'est pas encore publiée sur sourceforge, il faut la récupérer directement depuis les fichiers sources de TXM : https://svn.code.sf.net/p/txm/code/trunk/Toolbox/trunk/org.textometrie.toolbox/src/groovy/org/txm/macroproto/SelectSpecifMacro.groovy
    • FD : Une fois la macro récupérée, il faut l'installée dans le dossier HOME/TXM/scripts/macros/org/txm/macros, avec HOME= C:\Users\?Nom?)
    • FD : Comment ça marche, SelectSpecif pour “aérer” une AFC?
      • Sélectionner le résultat de la spécificité dans la vue Corpus et lancer la macro avec un double-click
      • Préciser le seuil de spécif (sélection des mots dont l'indice en valeur absolue est supérieur au paramètre “seuil”) et le nombre de mots max souhaité pour chaque partie (il peut y en avoir moins s'il n'y a pas assez de scores de spécificité au-dessus du seuil)
      • Où se trouve le résultat?? = Regarder dans la console! Il y a une requête des mots avec des spécif supérieures au seuil fixé
      • Créer un index avec cette requête
      • Créer une table lexicale à partir de l'index
      • Lancer une AFC sur cette table
      • Et voilà une AFC “aérée”!!!
  • AFC a priori plus intéressante sur les partitions croisées (vs. juste les 4 périodes)
  • biblio sur AFC : Volle 1980 (notamment sections “les aides à l'interprétation” et “pourquoi et comment il faut utiliser les aides à l'interprétation”), Fénelon 1981 (voir références complètes sur le site textométrie)

Cycle 2

préparation des fichiers sources

  • tokenisation compatible avec le modèle EN de TreeTagger (', -, mots particuliers, etc.)
  • gestion des noms propres
  • reprise des métadonées
    • les métadonnées numériques aussi codée en classe avant l'import des données (exemples, pour le ressenti émotionnel : extrême, forte, moyenne, faible ou pour l'âge: jeunes, intermédiaires, âgés)

transformations automatiques

  • explorer la projection de métadonnées sur la structure <question>
    • Plutôt utilisation de la partition croisée périodes x une métadonnée. Pour simplifier l'utilisation de cette macro, les métadonnées numériques sont aussi codée en classe
  • repérage des détails temporels et contextuels, émotionnels (heures, lieux, émotions, 11 septembre …) et projection de l'information au niveau de la structure <w>
    • balisage des détails temporels et contextuels au niveau du mot en ajoutant l’attribut “detail”
      • détails temporels = les heures (exemples: <w detail = “hour”>9:50</w> ; <w detail = “hour”>9 am</w>)
      • détails temporels = le 11 septembre (exemples: <w detail = “911”>9/11</w> ; <w detail = “911”>Septembre 11, 2001</w>)
      • détails contextuels = les lieux (exemples: <w detail = “place”>1st avenue</w> ; <w detail = “place”>14th St</w>)
  • repérage des émotions (utilisation de Affective Norms for English Words, Bradley & Lang, 1999 ou Norme de Warriner et al., 2013: 13.915 lemmas) et projection de l'information (valence, intensité de l'émotion) au niveau de la structure <w>
    • FD: difficulté: comme les listes contiennent les lemmes, il faudrait soit gérer les déclinaisons pour étiqueter les mots dans les sources, soit travailler sur les lemmes dans le corpus déjà étiqueté par txm. Des idées?

import dans TXM

Ne pas commencer le nom d'un corpus par un chiffre.

configurations types

  • sous-corpus Q1
    • partition périodes
      • survey_periode=t1, t2, t3 et t4
    • partition périodes x une métadonnée (comme le ressenti par exemple)
      • en tenant compte du domaine de la métadonnées soit d'une réinterprétation du domaine en fonction de l'équilibre de la population
      • exemple 1 (domaine) : survey_periode=t1 avec text_sadnesst1 (1 à 2, 2 à 3, 3 à 4 et 4 à 5)
      • exemple 2 (réinterprétation du domaine): survey_periode=t1 avec text_sadnesst1 avec balance(1 à 2, 2 à 3, 3 à 4 et 4 à 5)
        • FD : Avec les métadonnées codées en classe avant import (cf ci-dessus) on obtient par exemple pour sadness: t1_extreme, t1_high, t1_medium, t1_low, … pour chaque temps

Analyses

Objectif 1 : Observe-t-on une évolution temporelle du souvenir?

Objectif 2 : Quels sont les facteurs modulants cette évolution?

public/projets_matrice_avec_txm_fd.1454928454.txt.gz · Dernière modification: 2016/02/08 11:47 par fanny.degeilh@gmail.com