Outils pour utilisateurs

Outils du site


public:specs_cooc_motmot

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:specs_cooc_motmot [2013/07/08 10:25]
matthieu.decorde@ens-lyon.fr
public:specs_cooc_motmot [2017/03/02 10:50] (Version actuelle)
matthieu.decorde@ens-lyon.fr
Ligne 1: Ligne 1:
-====== Fonctionnalité Cooccurrences ​mots-mots ​======+====== Fonctionnalité Cooccurrences ​"​Liste" ​======
  
-Cette page servira à spécifier cette fonctionnalité dans TXM.+===== Objectif =====
  
-Personnes concernées ​+Cette page va spécifier la cooccurrence dite liste : 
 +  * Comment définir la liste de mot ? Par plusieurs CQL ? 
 +  * Comment définir le contexte de rencontre ? Dans quelle mesure on peut réutiliser les contextes de l'​actuel calcul de cooccurrence de TXM ? 
 +  * Quelle visualisation sont souhaitées ? 
 +  * Quelles optimisations sont possibles ?
  
-  * Serge 
-  * Bénédicte 
-  * Jean-Marie 
-  * Damon 
-  * Matthieu 
  
-Documents de référence existants ​:+===== Méthode ===== 
 + 
 +==== Documents de référence existants ​====
  
   * Articles de JVM :   * Articles de JVM :
Ligne 27: Ligne 28:
     * Contribution à une méthodologie de l’analyse des cooccurrenc… Thesis décembre 2003     * Contribution à une méthodologie de l’analyse des cooccurrenc… Thesis décembre 2003
  
-===== Mise en relation avec Gephi =====+==== Questions ​====
  
-  * Les fréquences ​brutes ​ne suffisent ​pas, il faut un indice ​statistique ​pour pouvoir filtrer ​l'affichage+  * Le calcul actuel de cooccurrence est dissymétrique. Quels problèmes cela pose t-il ? 
 +    * précisons bien qu'il ne faut pas confondre la dissymétrie du calcul (le fait que l'​indice de cooc de B pour A ne soit pas le même que celui de A pour B) et l'​orientation des cooccurrences (le fait de calculer un indice pour A avant B et un autre pour B avant A). 
 +    * pour moi (Bénédicte) la dissymétrie semble mal correspondre à l'​idée intuitive des cooccurrences,​ à ce que l'on cherche : ce qu'on veut modéliser, c'est l'​attirance de certains mots entre eux, sans distinguer le "point de vue" du mot le plus fréquent et celui qui l'est moins. 
 +    * si l'on garde la dissymétrie,​ cela alourdit la visualisation : on peut tracer deux liens orientés entre deux noeuds, avec ergonomiquement la difficulté de **ne pas** lire l'​orientation des liens comme une orientation syntagmatique (celle qu'on avait dans weblex par ex.), bref en ne s'​inscrivant pas dans les habitudes de la communauté. 
 +    * la matrice dissymétrique peut ne pas être utilisée directement comme données définissant le graphe, mais peut être soumise à une AFC, dont on tire ensuite une représentation spatiale sous forme de cartographie plutôt que de réseau. 
 +  * Quels sont les indices statistiques que Jean-Marie Viprey et Damon Mayaffre utilisent ? 
 +    * (BP) De mémoire (il faudrait vérifier/​actualiser) : 
 +      * dans Astartex, on construit un tableau des fréquences ​de rencontres mot-mot, qu'on soumet ensuite à l'AFC. On ne met donc pas tous les mots du corpus au départ (on doit se concentrer sur des mots "​pleins"​ & fréquents),​ et c'est l'AFC qui décante les co-fréquences originales de celles qui le sont moins. La visualisation est enrichie par la possibilité de projection géodésique,​ qui résout le pb d'​agglutinement des points au centre. 
 +      * dans Hyperbase, il y a différents calculs selon les fonctionnalités (Thème, Topologie, Corrélats, Associations). Pour la question qui nous intéresse, on a un indice ​utilisant un calcul hypergéométrique (pour évaluer la co-fréquence théorique) et l'écart réduit (pour évaluer le caractère remarquable de l'​association),​ et pour comparaison le rapport de vraisemblance (Dunning) et l'​information mutuelle de (Church) (cf. par exemple communication d'​Etienne aux JADT 2006, et extensions/​suite dans les JADT 2008). Quand on fait une AFC sur la matrice motsxmots, on se limite à 400 mots pleins (fréquents) et le tableau passé à l'AFC est composé des racines carrées des co-fréquences (ou co-fréquences brutes, ou probabiliste hypergéométrique + écart réduit, en option).
  
 +==== Options ====
  
-===== Existant : Cooccurrences =====+La cooccurence peut être stockée dans une Matrice.
  
-  ​Empants ​lmax lmin pivot rmin rmaxen structure ​ou en mot +Utiliser une matrice en indice : 
-  * Pivot = 1 requête CQL +  ​indices de Rinformation mutuellelog-likelyhood,​ etc. 
-  * Pas de sélection des cooccurrents+    * spécifications : 1 ou 2 références,​ description ​en contexte de cooccurence de mots, formules, dessin de l'UI 
 +  * indice de Lafon 
 +  * Comment calculer l'​indice ? A partir ​de quelles valeurs ?
  
-===== Etat du prototype : Macro CoocMat.groovy ​=====+Visualiser le graphe dans TXM 
 +  * Voir ce qu'il y a dans R et dans Iramuteq 
 +    * similarités 
 +    * Classes de noeud 
 +  * Améliorer la relation à Gephi 
 +    * Mieux comprendre ce que l'on peut faire avec Gephi 
 +  * Pouvoir retoucher le graph 
 +    * depuis la matrice 
 +    * depuis l'​interface de visualisation directement 
 +  * Pouvoir visualiser le graph dans TXM directement sans passer par Gephi ? 
 + 
 +Construction de la liste en entrée 
 +  * finaliser QueryIndex 
 +  * quel lien avec les spécificités ? 
 +  * recenser les endroits dans TXM susceptibles d'​être des sources (liste de cooccurrents,​ mots spécifiques,​ etc.) 
 + 
 +===== Solution ===== 
 + 
 +==== Etat du prototype : Macro CoocMat.groovy ====
  
   * Empants : pivot1 distance pivot2, en mot ou en structure   * Empants : pivot1 distance pivot2, en mot ou en structure
-  * Liste de requête CQL+  * Liste de requêtes CQL 
 +    * Attention cependant, pour le calcul des cooccurrences la sélection ne se fait plus par la requête CQL d'​origine mais par la valeur de la propriété d'​analyse. 
 +=== macro Matrice MotsMots : ce qu'il faudrait faire avant diffusion === 
 +(retour sur la base de l'​expérience de Bénédicte,​ 18 novembre 2013)
  
-===== Relation entre Cooccurrences et Cooccurrences Mots-Mots ​=====+  * rendre possible une fenêtre en mots (ou a minima s'​assurer que le choix d'une fenêtre en structure fonctionne) 
 +  * la valeur par défaut de la distance doit être 1 si c'est une distance en structures par défaut, 20 convient si on est par défaut sur une distance en mots 
 +  * prendre en charge les index sur plusieurs propriétés croisées (en utilisant l'​opérateur & dans les requêtes de la matrice) 
 +  * indiquer explicitement des conditions favorables de test : 
 +    * limiter la taille de l'​index à 100 (Vmax 100) (ou moins) (pour la lisibilité de l'​AFC) 
 +    * reprendre la condition de filtrage dans l'​affichage de l'​index pour éviter les (grosses) dérives sur les graphies ambiguës (ex. sur Discours avec Vmax=100, "​fait"​ et "​tout"​ doivent rester des pos="​Nc.*"​ dans le calcul de la cooccurrence ; sur Témoignages,​ on avait le cas de "​un"​ ; etc.) 
 + 
 +=== Corrections effectuées === 
 +  * Rétablissement de la fenêtre en mot : L'​interface actuelle permet de : 
 +    * Définir une distance en mot 
 +    * Limiter la rencontre par une structure. Si aucune structure n'est choisie, la structure '​text'​ est la limite. 
 +  * La distance actuelle n'​affecte que la distance en mot. Peut-être on pourra rajouter une distance en structure. 
 +  * Pour les conditions favorables, indiquer ça ou ? Dans un tuto, doc, l'​interface utilisateur de TXM ? 
 + 
 +==== Relation entre Cooccurrences et Cooccurrences Mots-Mots ====
  
   * Cooccurrences : pourrait remplir une ligne (ou une colonne) de la matrice   * Cooccurrences : pourrait remplir une ligne (ou une colonne) de la matrice
 +    * Rq. Cela produit une matrice de nature différente (non sysmétrique),​ donc pas exploitable de la même manière, et peut-être pas non plus ce qu'on chercherait à obtenir.
  
-===== Questions ===== 
  
-  * Le calcul actuel ​de cooccurrence ​est dissymétrique. Quels problèmes cela pose t-il ? +==== Extension QueryCooccurence ==== 
-  * Quels sont les indices statistiques que Jean-Marie Viprey et Damon Mayaffre utilisent ?+ 
 +Le prototype de macro de matrice ​de cooccurrence ​a été transformé et augmenté en une extension : [[public:​specs_dev_rcp:​specs_ext_querycooccurences|QueryCooccurrences]] 
 + 
 +===== Protocole de test ===== 
 + 
 +===== État de la plate-forme ===== 
 + 
 +===== Recette =====
  
  
public/specs_cooc_motmot.1373271909.txt.gz · Dernière modification: 2013/07/08 10:25 par matthieu.decorde@ens-lyon.fr