Liste de liens :
Liste de liens :
Cette page décrit la fonctionnalité Cooccurrences livrée dans TXM.
La commande permet de …
Nous identifions plusieurs types de cooccurrences :
Une évolution de l'actuel cooccurrence (motif) de TXM serait de pouvoir sélectionner les cooccurrents avec une CQL. Pour par exemple ne compter que les verbes qui cooccurrent avec la CQL pivot.
Les cooccurrents sont équipés d'un score de spécificité.
S'appuyer sur des requêtes CQL construites à partir des paramètres du formulaire de cooccurrences.
Paramètres :
Les contextes sont définis :
La stratégie est de lancer 3 requêtes :
L'utilisation de requête permet de gérer plus simplement le cas des sous-corpus et le cas des contexte en structure.
Il faut ensuite aligné les matches résultats pour pouvoir compter et calculer les distances.
L'alignement échoue en cas de chevauchement entre un pivot et le contexte d'un autre pivot → on insère alors un “@” dans la requête pour s'assurer du bon alignement.
exemple pivot = je, contextes en mots de -10 -5 3 7 :
- requête pivot : @"je" - requête contexte : []{10,10} @"je" []{7,7} - requête anti-contexte : []{5,5} @"je" []{3,3}
exemple pivot = je, contextes en structure p de -2 -1 1 3 :
- requête pivot : @"je" - requête contexte : (<p>[]+</p>){2,2} ... @"je" ... (<p>[]+</p>){3,3} - requête anti-contexte : [](<p>[]+</p>){1,1} @"je" (<p>[]+</p>){1,1}
SLH:
implémenter des contextes basés sur des propriétés de mots héritées de propriétés de milestones à l'import
ce serait bien par exemple que des contextes définis à partir de milestones <lb/> soient équivalents à des contextes définis par des éléments <l>, à peu près de même niveau structurel, qui encodent des vers de poésie.
MD: les requetes de contextes ressemblerait a celle des contextes en mots avec une contrainte d'identifiant ou numéro de milestone sur le 1er token, le pivot et le dernier pivot : [m_n=pivot.m_n - max_left] ... pivot ...[m_n=pivot.m_n - max_right]
Première version générant une CQL. Cette version ne sélectionne pas forcement tous les cooccurrents et ne représente pas forcement bien les cooccurrents comptabilisés.
Algo :
Amélioration :
Construire directement une liste de match à partir des pivots et cooccurrents sélectionnés.
État des développement
Algo :
Changements par rapport à TXM 0.8.0: