Outils pour utilisateurs

Outils du site


public:specs_cooc_motmot

Fonctionnalité Cooccurrences "Liste"

Objectif

Cette page va spécifier la cooccurrence dite liste :

  • Comment définir la liste de mot ? Par plusieurs CQL ?
  • Comment définir le contexte de rencontre ? Dans quelle mesure on peut réutiliser les contextes de l'actuel calcul de cooccurrence de TXM ?
  • Quelle visualisation sont souhaitées ?
  • Quelles optimisations sont possibles ?

Méthode

Documents de référence existants

  • Articles de JVM :
  • Articles de DM :
  • Articles Zotero :
    • Lexicometric Analysis of Cooccurrences Geffroy et al. Book Section 1973
    • Cooccurrences, La CFDT de 1973 À 1992 Heiden and Lafon Book Section 1998
    • Analyse Lexicométrique et Recherche Des Cooccurrences Lafon Journal Article 1981
    • Lexicométrie et Associations Syntagmatiques (Analyse Des Seg… Lafon et al. Conference Paper 1985
    • Texte Propagandiste et Cooccurrences. Hypothèses et Méthodes… Tournier Journal Article 1985
    • Co–Occurrence Patterns Among Collocations : A Tool for Corpu… Biber Journal Article 1993
    • Analyse lexicométrique et recherche des cooccurrences Lafon Journal Article 1981
    • Contribution à une méthodologie de l’analyse des cooccurrenc… Thesis décembre 2003

Questions

  • Le calcul actuel de cooccurrence est dissymétrique. Quels problèmes cela pose t-il ?
    • précisons bien qu'il ne faut pas confondre la dissymétrie du calcul (le fait que l'indice de cooc de B pour A ne soit pas le même que celui de A pour B) et l'orientation des cooccurrences (le fait de calculer un indice pour A avant B et un autre pour B avant A).
    • pour moi (Bénédicte) la dissymétrie semble mal correspondre à l'idée intuitive des cooccurrences, à ce que l'on cherche : ce qu'on veut modéliser, c'est l'attirance de certains mots entre eux, sans distinguer le “point de vue” du mot le plus fréquent et celui qui l'est moins.
    • si l'on garde la dissymétrie, cela alourdit la visualisation : on peut tracer deux liens orientés entre deux noeuds, avec ergonomiquement la difficulté de ne pas lire l'orientation des liens comme une orientation syntagmatique (celle qu'on avait dans weblex par ex.), bref en ne s'inscrivant pas dans les habitudes de la communauté.
    • la matrice dissymétrique peut ne pas être utilisée directement comme données définissant le graphe, mais peut être soumise à une AFC, dont on tire ensuite une représentation spatiale sous forme de cartographie plutôt que de réseau.
  • Quels sont les indices statistiques que Jean-Marie Viprey et Damon Mayaffre utilisent ?
    • (BP) De mémoire (il faudrait vérifier/actualiser) :
      • dans Astartex, on construit un tableau des fréquences de rencontres mot-mot, qu'on soumet ensuite à l'AFC. On ne met donc pas tous les mots du corpus au départ (on doit se concentrer sur des mots “pleins” & fréquents), et c'est l'AFC qui décante les co-fréquences originales de celles qui le sont moins. La visualisation est enrichie par la possibilité de projection géodésique, qui résout le pb d'agglutinement des points au centre.
      • dans Hyperbase, il y a différents calculs selon les fonctionnalités (Thème, Topologie, Corrélats, Associations). Pour la question qui nous intéresse, on a un indice utilisant un calcul hypergéométrique (pour évaluer la co-fréquence théorique) et l'écart réduit (pour évaluer le caractère remarquable de l'association), et pour comparaison le rapport de vraisemblance (Dunning) et l'information mutuelle de (Church) (cf. par exemple communication d'Etienne aux JADT 2006, et extensions/suite dans les JADT 2008). Quand on fait une AFC sur la matrice motsxmots, on se limite à 400 mots pleins (fréquents) et le tableau passé à l'AFC est composé des racines carrées des co-fréquences (ou co-fréquences brutes, ou probabiliste hypergéométrique + écart réduit, en option).

Options

La cooccurence peut être stockée dans une Matrice.

Utiliser une matrice en indice :

  • indices de R: information mutuelle, log-likelyhood, etc.
    • spécifications : 1 ou 2 références, description en contexte de cooccurence de mots, formules, dessin de l'UI
  • indice de Lafon
  • Comment calculer l'indice ? A partir de quelles valeurs ?

Visualiser le graphe dans TXM

  • Voir ce qu'il y a dans R et dans Iramuteq
    • similarités
    • Classes de noeud
  • Améliorer la relation à Gephi
    • Mieux comprendre ce que l'on peut faire avec Gephi
  • Pouvoir retoucher le graph
    • depuis la matrice
    • depuis l'interface de visualisation directement
  • Pouvoir visualiser le graph dans TXM directement sans passer par Gephi ?

Construction de la liste en entrée

  • finaliser QueryIndex
  • quel lien avec les spécificités ?
  • recenser les endroits dans TXM susceptibles d'être des sources (liste de cooccurrents, mots spécifiques, etc.)

Solution

Etat du prototype : Macro CoocMat.groovy

  • Empants : pivot1 distance pivot2, en mot ou en structure
  • Liste de requêtes CQL
    • Attention cependant, pour le calcul des cooccurrences la sélection ne se fait plus par la requête CQL d'origine mais par la valeur de la propriété d'analyse.

macro Matrice MotsMots : ce qu'il faudrait faire avant diffusion

(retour sur la base de l'expérience de Bénédicte, 18 novembre 2013)

  • rendre possible une fenêtre en mots (ou a minima s'assurer que le choix d'une fenêtre en structure fonctionne)
  • la valeur par défaut de la distance doit être 1 si c'est une distance en structures par défaut, 20 convient si on est par défaut sur une distance en mots
  • prendre en charge les index sur plusieurs propriétés croisées (en utilisant l'opérateur & dans les requêtes de la matrice)
  • indiquer explicitement des conditions favorables de test :
    • limiter la taille de l'index à 100 (Vmax = 100) (ou moins) (pour la lisibilité de l'AFC)
    • reprendre la condition de filtrage dans l'affichage de l'index pour éviter les (grosses) dérives sur les graphies ambiguës (ex. sur Discours avec Vmax=100, “fait” et “tout” doivent rester des pos=“Nc.*” dans le calcul de la cooccurrence ; sur Témoignages, on avait le cas de “un” ; etc.)

Corrections effectuées

  • Rétablissement de la fenêtre en mot : L'interface actuelle permet de :
    • Définir une distance en mot
    • Limiter la rencontre par une structure. Si aucune structure n'est choisie, la structure 'text' est la limite.
  • La distance actuelle n'affecte que la distance en mot. Peut-être on pourra rajouter une distance en structure.
  • Pour les conditions favorables, indiquer ça ou ? Dans un tuto, doc, l'interface utilisateur de TXM ?

Relation entre Cooccurrences et Cooccurrences Mots-Mots

  • Cooccurrences : pourrait remplir une ligne (ou une colonne) de la matrice
    • Rq. Cela produit une matrice de nature différente (non sysmétrique), donc pas exploitable de la même manière, et peut-être pas non plus ce qu'on chercherait à obtenir.

Extension QueryCooccurence

Le prototype de macro de matrice de cooccurrence a été transformé et augmenté en une extension : QueryCooccurrences

Protocole de test

État de la plate-forme

Recette

public/specs_cooc_motmot.txt · Dernière modification: 2017/03/02 10:50 par matthieu.decorde@ens-lyon.fr