Liste de liens :
Liste de liens :
Les sous-corpus sont des sélections de mots d'un corpus (principal ou racine) ou d'un sous-corpus :
Expérimentations
Règles de tomizof1) :
La requête produit la liste de matchs définissant le sous-corpus.
CQP permet de combiner des sous-corpus avec les opérateurs union, inter et diff.
TXM commence à y donner accès, voir les tickets ;
Cependant les opérateurs natifs union, inter et diff de CQP ne travaillent qu'avec des matchs et sont incapables de segmenter ou de fusionner3) des matches.
[SLH : feature] il serait très intéressant d'augmenter la sémantique des opérateurs existants pour obtenir des opérateurs aux résultats plus “intuitifs” et surtout plus utiles aux opérations sur les sous-corpus d'utilisateurs de TXM → voir l'option coalesce des spécifications des nouvelles commandes ensemblistes TXM.
Il y aurait également des applications à d'autres commandes comme les Concordances calculées à partir de lignes d'Index (les pivots correspondraient à l'intersection entre la liste de matchs du résultat de la requête et la liste de matchs du corpus à l'origine de l'Index).
CQP peut construire un sous-corpus a partir :
Concernant save&load :
Concernant dump&undump :
Le couple dump&undump est + facile à mettre en place et a utiliser (les fichiers peuvent être manuellement modifiés).
Les fonction dump&undump ne sont pas des requête nommées :
dump A > "/tmp/dumpA.tbl"; undump B with target keyword < "/tmp/dumpA.tbl";
on peut détecter et reforger avec la bonne syntaxe CQL les syntaxes dump et undump suivantes :
dump "/tmp/dumpA.tbl"; undump "/tmp/dumpA.tbl";
Pour cela, il faut modifier :
Remarque :
Un corpus thématique est défini par :
À la validation, l'interface créé alors une requête CQL composée de 2 parties : THEME + “expand to + STRUCTURE et l'exécute sur le corpus parent sélectionné.
[SLH : discussion] on peut récupérer les mots des textes où se réalisent des mots clés [pour en faire autre chose], ou les identifiants des textes où se réalisent des mots clés [pour en faire autre chose]. Le [pour en faire autre chose] déterminant ce qu'on fait des mots ou des identifiants.
Exemple
La sélection : “je cherche les passages d'une transcriptions où le résumé (de la transcription) contient 'Bardot'” se traduit par les requêtes :
De la sélection, on peut vouloir utiliser :
Chapitre "<div> []" VS "[div]" test.xml : *<div> <div2>0 <sub>1 2 3</sub> 4 </div2> </div> <div> <div2>5<sub> 6 7 8 </sub>9 </div2> </div> *0123456789 : corpus *<...><...> : divs (0->4 ; 5 -> 9) *<...><...> : div2s (0->4 ; 5 -> 9) * <.> <.> : subs (0->4 ; 5 -> 9) R1=<div> [] -> 2 matches (0,0) et (5,5) R1bis=<div> [] expand to div-> 2 matches (0,4) et (5,9) R2=[div] -> 10 matches (0,0) ... (5,5) et (9,9) [on perd les limites] R2bis=[div] expand to div-> 2 matches (0,4) et (5,9) * *_123__678_ : sous-corpus construit avec la requete <sub>[]+</sub> R1=<div> [] -> 0 matches R1bis=<div> [] expand to div -> 0 matches R2=[div] -> 6 matches (1,1), (2,2) (3,3), (6,6), (7,7) et (8,8) [on perd les limites des divs et les séquences de mots R="[][]" ne marche pas] R2 + matching strategy=greedy -> 2 matches (1,3) et (6,8) R2bis=[div] expand to div-> 2 matches (0,4) et (5,9)