Outils pour utilisateurs

Outils du site


public:specs_cooccurence

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
public:specs_cooccurence [2017/03/02 10:57]
matthieu.decorde@ens-lyon.fr créée
public:specs_cooccurence [2020/02/19 10:03] (Version actuelle)
matthieu.decorde@ens-lyon.fr [Hyperlien vers les concordances]
Ligne 33: Ligne 33:
   * ...   * ...
  
 +==== Hyperlien vers les concordances ====
 +
 +=== V1 ===
 +
 +Première version générant une CQL. Cette version ne sélectionne pas forcement tous les cooccurrents et ne représente pas forcement bien les cooccurrents comptabilisés.
 +
 +Algo : 
 +  * si l'​empan est en mot :
 +    * ([]* pivot)|(pivot []*) within distance_maximum
 +  * si l'​empan est en structure
 +    * ([]* pivot)|(pivot []*) within distance_maximum structure
 +
 +Amélioration :
 +  * si un des empans est neutralisé,​ on peut retirer (pivot []*) ou ([]* pivot) à la requête
 +
 +=== V2 ===
 +
 +Construire directement une liste de match à partir des pivots et cooccurrents sélectionnés.
 ===== Solution ===== ===== Solution =====
  
Ligne 38: Ligne 56:
  
 État des développement État des développement
 +
 +==== TXM 0.8.1 ====
 +
 +Algo :
 +  * L’empan réglé génère 3 requêtes CQL (permet de faire des cooccurrences sur des sous-corpus plus ou moins complexes) ​
 +    * requête pivot : récupère les positions du pivot
 +    * requête contexte : récupère les positions de cooccurrent aux distances max_left et max_right
 +    * requête anti-contexte : récupère les positions de cooccurrent aux distances min_left et min_right
 +    * en croisant les matches de "​contexte"​ et de "​anti-context",​ on peut gérer le cas d'​empant avec un trou à gauche et a droite du pivot
 +  * Pour toutes les positions de cooccurrents,​
 +    * on garde la distance minimum à un pivot (cela est fait en testant les positions des match "​context"​ qui recouvrent les match "​pivot"​ tout en ignorant les positions cooccurrents qui sont dans les match "​anti-context"​)
 +    * les positions qui cooccurent plusieurs fois ne sont comptabilisé qu'une seule fois
 +  * Pour toutes les positions de cooccurrents sélectionnées
 +    * on calcule la projection sur les propriétés de mots sélectionnées dans une signature
 +    * on somme les signatures
 +    * on somme les distances
 +  * Pour toutes les signatures
 +    * on calcul une table des fréquences des cooccurrents dans le corpus
 +    * on calcul les scores de spécificités
 +  * Pour toutes les signatures
 +    * on créé une ligne de cooccurrence qui contient : 
 +      * la fréquence du cooccurrent dans le corpus
 +      * le nombre cooccurrence
 +      * la distance moyenne
 +      * la signature
 +    * on filtre les lignes par la fréquence, la co-fréquence et le score
 +
 +Changements par rapport à TXM 0.8.0:
 +  * correction du calcul de la distance à droite du pivot quand le pivot est sur plusieurs positions
 +  * correction de la distance moyenne pour ne prendre en compte qu'un seule fois un cooccurrent (une position de cooccurrent pour être exact). Le cooccurent sélectionné est celui le + proche d'un des pivots
 +    * cette modification peut faire qu'un lien cooccurrence->​concordance retourne + de matchs que le nombre de cooccurrent comptabilisé
 +
public/specs_cooccurence.txt · Dernière modification: 2020/02/19 10:03 par matthieu.decorde@ens-lyon.fr