Outils pour utilisateurs

Outils du site


public:specs_cooc_motmot

Ceci est une ancienne révision du document !


Fonctionnalité Cooccurrences mots-mots

Cette page servira à spécifier cette fonctionnalité dans TXM.

Personnes concernées :

  • Serge
  • Bénédicte
  • Jean-Marie
  • Damon
  • Matthieu

Documents de référence existants

  • Articles de JVM :
  • Articles de DM :
  • Articles Zotero :
    • Lexicometric Analysis of Cooccurrences Geffroy et al. Book Section 1973
    • Cooccurrences, La CFDT de 1973 À 1992 Heiden and Lafon Book Section 1998
    • Analyse Lexicométrique et Recherche Des Cooccurrences Lafon Journal Article 1981
    • Lexicométrie et Associations Syntagmatiques (Analyse Des Seg… Lafon et al. Conference Paper 1985
    • Texte Propagandiste et Cooccurrences. Hypothèses et Méthodes… Tournier Journal Article 1985
    • Co–Occurrence Patterns Among Collocations : A Tool for Corpu… Biber Journal Article 1993
    • Analyse lexicométrique et recherche des cooccurrences Lafon Journal Article 1981
    • Contribution à une méthodologie de l’analyse des cooccurrenc… Thesis décembre 2003

Existant : Cooccurrences

  • Empants : lmax lmin pivot rmin rmax, en structure ou en mot
  • Pivot = 1 requête CQL
  • Pas de sélection des cooccurrents

Etat du prototype : Macro CoocMat.groovy

  • Empants : pivot1 distance pivot2, en mot ou en structure
  • Liste de requêtes CQL
    • Attention cependant, pour le calcul des cooccurrences la sélection ne se fait plus par la requête CQL d'origine mais par la valeur de la propriété d'analyse.

Relation entre Cooccurrences et Cooccurrences Mots-Mots

  • Cooccurrences : pourrait remplir une ligne (ou une colonne) de la matrice
    • Rq. Cela produit une matrice de nature différente (non sysmétrique), donc pas exploitable de la même manière, et peut-être pas non plus ce qu'on chercherait à obtenir.

Pistes d'évolution

  • Les fréquences brutes ne suffisent pas, il faut un indice statistique pour pouvoir filtrer l'affichage
    • implémenter l'un des indices de cooc proposés par Pierre Lafon ? cf. Mots 3 ou/et ce qui a été implémenté dans Hyperbase en collaboration avec Lafon.
  • pouvoir retoucher la table de cooccurrences pour neutraliser certaines attirances isolées liées à des locutions (fonctionnalité d'ailleurs proposée par Hyperbase)
    • des retouches pourraient se faire aussi ou plutôt à même le graphe ?? (fusion de noeuds pour reconstruire une locution). Faire apparaître les relations peu à peu (par force décroissante) et les traiter ?
  • pouvoir aussi construire la matrice sur la base des mots thématiques repérés par la classification d'Iramuteq, en alternative à une sélection par équation CQL et seuil de fréquence (à conserver).
  • savoir afficher des graphes dans TXM (export Gephi bien, mais ne convient pas à tous les utilisateurs), ou plus généralement des cartographies de mots (graphes, plan factoriel avec éventuellement projection géodésique, carte de Kohonen…)
  • remplacer des parties graphe par des classes (avec éventuellement zoom : structuration interne d'associés), c'est un peu la même idée que le coloriage de zones sur l'arbre d'Iramuteq : on rend compte ainsi de composantes denses en liens sans dessiner le détail des liens pour mieux dégager la structuration globale.

Mise en relation avec Gephi

  • acquérir une compétence suffisante de Gephi (interface, algorithmes implémentés…), à la fois pour obtenir un graphe lisible et pour bien maîtriser son interprétation.
  • en l'état le filtrage par seuil réglable par curseur est difficile à utiliser (trop sensible, et les valeurs ne sont pas vraiment interprétées), il serait intéressant de disposer (trouver ?) en plus d'un filtrage non pas absolu (par seuil sur une valeur associée aux liens) mais relatif (on trie sur la valeur et on ajoute/retire les liens un à un -les ex-aequo ensemble).

Questions

  • Le calcul actuel de cooccurrence est dissymétrique. Quels problèmes cela pose t-il ?
    • précisons bien qu'il ne faut pas confondre la dissymétrie du calcul (le fait que l'indice de cooc de B pour A ne soit pas le même que celui de A pour B) et l'orientation des cooccurrences (le fait de calculer un indice pour A avant B et un autre pour B avant A).
    • pour moi (Bénédicte) la dissymétrie semble mal correspondre à l'idée intuitive des cooccurrences, à ce que l'on cherche : ce qu'on veut modéliser, c'est l'attirance de certains mots entre eux, sans distinguer le “point de vue” du mot le plus fréquent et celui qui l'est moins.
    • si l'on garde la dissymétrie, cela alourdit la visualisation : on peut tracer deux liens orientés entre deux noeuds, avec ergonomiquement la difficulté de ne pas lire l'orientation des liens comme une orientation syntagmatique (celle qu'on avait dans weblex par ex.), bref en ne s'inscrivant pas dans les habitudes de la communauté.
    • la matrice dissymétrique peut ne pas être utilisée directement comme données définissant le graphe, mais peut être soumise à une AFC, dont on tire ensuite une représentation spatiale sous forme de cartographie plutôt que de réseau.
  • Quels sont les indices statistiques que Jean-Marie Viprey et Damon Mayaffre utilisent ?
    • (BP) De mémoire (il faudrait vérifier/actualiser) :
      • dans Astartex, on construit un tableau des fréquences de rencontres mot-mot, qu'on soumet ensuite à l'AFC. On ne met donc pas tous les mots du corpus au départ (on doit se concentrer sur des mots “pleins” & fréquents), et c'est l'AFC qui décante les co-fréquences originales de celles qui le sont moins. La visualisation est enrichie par la possibilité de projection géodésique, qui résout le pb d'agglutinement des points au centre.
      • dans Hyperbase, il y a différents calculs selon les fonctionnalités (Thème, Topologie, Corrélats, Associations). Pour la question qui nous intéresse, on a un indice utilisant un calcul hypergéométrique (pour évaluer la co-fréquence théorique) et l'écart réduit (pour évaluer le caractère remarquable de l'association), et pour comparaison le rapport de vraisemblance (Dunning) et l'information mutuelle de (Church) (cf. par exemple communication d'Etienne aux JADT 2006, et extensions/suite dans les JADT 2008). Quand on fait une AFC sur la matrice motsxmots, on se limite à 400 mots pleins (fréquents) et le tableau passé à l'AFC est composé des racines carrées des co-fréquences (ou co-fréquences brutes, ou probabiliste hypergéométrique + écart réduit, en option).
public/specs_cooc_motmot.1373379142.txt.gz · Dernière modification: 2013/07/09 16:12 par benedicte.pincemin@ens-lyon.fr