Outils pour utilisateurs

Outils du site


public:specs_cooccurence

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:specs_cooccurence [2020/02/18 16:11]
matthieu.decorde@ens-lyon.fr [TXM 0.7.8]
public:specs_cooccurence [2020/04/17 19:12] (Version actuelle)
benedicte.pincemin@ens-lyon.fr [Hyperlien vers les concordances]
Ligne 33: Ligne 33:
   * ...   * ...
  
 +==== Hyperlien vers les concordances ====
 +
 +=== V1 ===
 +
 +Première version générant une CQL. Cette version ne sélectionne pas forcement tous les cooccurrents et ne représente pas forcement bien les cooccurrents comptabilisés.
 +
 +Algo : 
 +  * si l'​empan est en mot :
 +    * ([]* pivot)|(pivot []*) within distance_maximum
 +  * si l'​empan est en structure
 +    * ([]* pivot)|(pivot []*) within distance_maximum structure
 +
 +Amélioration :
 +  * si un des empans est neutralisé,​ on peut retirer (pivot []*) ou ([]* pivot) à la requête
 +    * (BP, 17/04/2020) mais si le contexte est en structure, les deux ordres restent possibles dans la structure contenant le pivot.
 +  * (BP, 17/04/2020) si les deux empans sont actifs, ils sont traités symétriquement,​ alors que l'un peut être plus long que l'​autre : la requête peut alors ramener des contextes supplémentaires où le cooccurrent est présent mais trop loin.
 +
 +=== V2 ===
 +
 +Construire directement une liste de match à partir des pivots et cooccurrents sélectionnés.
 ===== Solution ===== ===== Solution =====
  
Ligne 41: Ligne 61:
 ==== TXM 0.8.1 ==== ==== TXM 0.8.1 ====
  
-Changements :+Algo : 
 +  * L’empan réglé génère 3 requêtes CQL (permet de faire des cooccurrences sur des sous-corpus plus ou moins complexes)  
 +    * requête pivot : récupère les positions du pivot 
 +    * requête contexte : récupère les positions de cooccurrent aux distances max_left et max_right 
 +    * requête anti-contexte : récupère les positions de cooccurrent aux distances min_left et min_right 
 +    * en croisant les matches de "​contexte"​ et de "​anti-context",​ on peut gérer le cas d'​empant avec un trou à gauche et a droite du pivot 
 +  * Pour toutes les positions de cooccurrents,​ 
 +    * on garde la distance minimum à un pivot (cela est fait en testant les positions des match "​context"​ qui recouvrent les match "​pivot"​ tout en ignorant les positions cooccurrents qui sont dans les match "​anti-context"​) 
 +    * les positions qui cooccurent plusieurs fois ne sont comptabilisé qu'une seule fois 
 +  * Pour toutes les positions de cooccurrents sélectionnées 
 +    * on calcule la projection sur les propriétés de mots sélectionnées dans une signature 
 +    * on somme les signatures 
 +    * on somme les distances 
 +  * Pour toutes les signatures 
 +    * on calcul une table des fréquences des cooccurrents dans le corpus 
 +    * on calcul les scores de spécificités 
 +  * Pour toutes les signatures 
 +    * on créé une ligne de cooccurrence qui contient :  
 +      * la fréquence du cooccurrent dans le corpus 
 +      * le nombre cooccurrence 
 +      * la distance moyenne 
 +      * la signature 
 +    * on filtre les lignes par la fréquence, la co-fréquence et le score 
 + 
 +Changements ​par rapport à TXM 0.8.0:
   * correction du calcul de la distance à droite du pivot quand le pivot est sur plusieurs positions   * correction du calcul de la distance à droite du pivot quand le pivot est sur plusieurs positions
   * correction de la distance moyenne pour ne prendre en compte qu'un seule fois un cooccurrent (une position de cooccurrent pour être exact). Le cooccurent sélectionné est celui le + proche d'un des pivots   * correction de la distance moyenne pour ne prendre en compte qu'un seule fois un cooccurrent (une position de cooccurrent pour être exact). Le cooccurent sélectionné est celui le + proche d'un des pivots
     * cette modification peut faire qu'un lien cooccurrence->​concordance retourne + de matchs que le nombre de cooccurrent comptabilisé     * cette modification peut faire qu'un lien cooccurrence->​concordance retourne + de matchs que le nombre de cooccurrent comptabilisé
  
public/specs_cooccurence.1582038666.txt.gz · Dernière modification: 2020/02/18 16:11 par matthieu.decorde@ens-lyon.fr