Outils pour utilisateurs

Outils du site


public:specs_cooccurence

Ceci est une ancienne révision du document !


Fonctionnalité Cooccurrences

Cette page décrit la fonctionnalité Cooccurrences livrée dans TXM.

Objectif

La commande permet de …

Nous identifions plusieurs types de cooccurrences :

  • motif : dénombrement des mots dans le contexte d'un pivot. Dans TXM, les mots dans le contexte en mot ou en structure des matchs d'une requête CQL
  • généralisée : recherche la rencontre de tous les mots entre eux dans
  • liste de motif : à mi-chemin entre la cooccurrence motif et généralisée. On cherche à dénombrer le nombre de rencontre d'une liste de mot avec une autre liste de mot (ou la même)

Une évolution de l'actuel cooccurrence (motif) de TXM serait de pouvoir sélectionner les cooccurrents avec une CQL. Pour par exemple ne compter que les verbes qui cooccurrent avec la CQL pivot.

Les cooccurrents sont équipés d'un score de spécificité.

Méthode

S'appuyer sur des requêtes CQL construites à partir des paramètres du formulaire de cooccurrences.

Paramètres :

  • pivot
  • fenêtre de recherche des cooccurrents
    • distance
    • unité de distance
  • propriétés d'affichage des cooccurrents
  • seuils
    • score
    • fréquence (de cooccurrent)

Solution

TXM 0.7.8

État des développement

TXM 0.8.1

Algo :

  • L’empan réglé génère 3 requêtes CQL (permet de faire des cooccurrences sur des sous-corpus plus ou moins complexes)
    • requête pivot : récupère les positions du pivot
    • requête contexte : récupère les positions de cooccurrent aux distances max_left et max_right
    • requête anti-contexte : récupère les positions de cooccurrent aux distances min_left et min_right
    • en croisant les matches de “contexte” et de “anti-context”, on peut gérer le cas d'empant avec un trou à gauche et a droite du pivot
  • Pour toutes les positions de cooccurrents,
    • on garde la distance minimum à un pivot (cela est fait en testant les positions des match “context” qui recouvrent les match “pivot” tout en ignorant les positions cooccurrents qui sont dans les match “anti-context”)
    • les positions qui cooccurent plusieurs fois ne sont comptabilisé qu'une seule fois
  • Pour toutes les positions de cooccurrents sélectionnées
    • on calcule la projection sur les propriétés de mots sélectionnées dans une signature
    • on somme les signatures
    • on somme les distances
  • Pour toutes les signatures
    • on calcul une table des fréquences des cooccurrents dans le corpus
    • on calcul les scores de spécificités
  • Pour toutes les signatures
    • on créé une ligne de cooccurrence qui contient :
      • la fréquence du cooccurrent dans le corpus
      • le nombre cooccurrence
      • la distance moyenne
      • la signature
    • on filtre les lignes par la fréquence, la co-fréquence et le score

Changements par rapport à TXM 0.8.0:

  • correction du calcul de la distance à droite du pivot quand le pivot est sur plusieurs positions
  • correction de la distance moyenne pour ne prendre en compte qu'un seule fois un cooccurrent (une position de cooccurrent pour être exact). Le cooccurent sélectionné est celui le + proche d'un des pivots
    • cette modification peut faire qu'un lien cooccurrence→concordance retourne + de matchs que le nombre de cooccurrent comptabilisé
public/specs_cooccurence.1582102190.txt.gz · Dernière modification: 2020/02/19 09:49 par matthieu.decorde@ens-lyon.fr