Liste de liens :
Liste de liens :
Ceci est une ancienne révision du document !
Les sous-corpus sont des sélections de mots d'un corpus (principal ou racine) ou d'un sous-corpus :
Expérimentations
Règles de tomizof1) :
Dans l'interface de construction de sous-corpus actuelle, techniquement un sous-corpus correspond à un résultat de requête CQL nommé. La requête est lancée sur les matchs du parent. Mais CQP n'interdit pas d'étendre les matchs trouvés avec le mot clé “expand to” (voir d'autres mots clés ?).
L'interface de création de sous-corpus de TXM doit s'assurer que les règles de tomizof sont respectées.
Dans certains cas, il peut être utile de créer un sous-corpus plus grand que son parent lorsqu'on souhaite s'intéresser au contexte des matches. Par exemple, récupérer les textes où se réalisent des mots clés.
[SLH : discussion] on peut récupérer les mots des textes où se réalisent des mots clés [pour en faire autre chose], ou les identifiants des textes où se réalisent des mots clés [pour en faire autre chose]. Le [pour en faire autre chose] déterminant ce qu'on fait des mots ou des identifiants.
Si un sous-corpus est plus grand que son parent, alors son noeud dans la vue Corpus doit être placé sous le premier noeud ancêtre le contenant entièrement.
CQP permet de combiner des sous-corpus avec les opérateurs union, inter et diff.
TXM commence à y donner accès, voir les tickets ;
Cependant les opérateurs natifs union, inter et diff de CQP ne travaillent qu'avec des matchs et sont incapables de segmenter ou de fusionner3) des matches.
[SLH : feature] il serait très intéressant d'augmenter la sémantique des opérateurs existants pour obtenir des opérateurs aux résultats plus “intuitifs” et surtout plus utiles aux opérations sur les sous-corpus d'utilisateurs de TXM → voir l'option coalesce des nouvelles commandes TXM.
Il y aurait également des applications à d'autres commandes comme les Concordances calculées à partir de lignes d'Index (les pivots correspondraient à l'intersection entre la liste de matchs du résultat de la requête et la liste de matchs du corpus à l'origine de l'Index).
CQP peut construire un sous-corpus a partir :
Chapitre "<div> []" VS "[div]" test.xml : *<div> <div2>0 <sub>1 2 3</sub> 4 </div2> </div> <div> <div2>5<sub> 6 7 8 </sub>9 </div2> </div> *0123456789 : corpus *<...><...> : divs (0->4 ; 5 -> 9) *<...><...> : div2s (0->4 ; 5 -> 9) * <.> <.> : subs (0->4 ; 5 -> 9) R1=<div> [] -> 2 matches (0,0) et (5,5) R1bis=<div> [] expand to div-> 2 matches (0,4) et (5,9) R2=[div] -> 10 matches (0,0) ... (5,5) et (9,9) [on perd les limites] R2bis=[div] expand to div-> 2 matches (0,4) et (5,9) * *_123__678_ : sous-corpus construit avec la requete <sub>[]+</sub> R1=<div> [] -> 0 matches R1bis=<div> [] expand to div -> 0 matches R2=[div] -> 6 matches (1,1), (2,2) (3,3), (6,6), (7,7) et (8,8) [on perd les limites des divs et les séquences de mots R="[][]" ne marche pas] R2 + matching strategy=greedy -> 2 matches (1,3) et (6,8) R2bis=[div] expand to div-> 2 matches (0,4) et (5,9)