Outils pour utilisateurs

Outils du site


public:specs_subcorpus

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:specs_subcorpus [2019/12/11 15:08]
slh@ens-lyon.fr [Sous-corpus]
public:specs_subcorpus [2020/02/10 16:34] (Version actuelle)
matthieu.decorde@ens-lyon.fr
Ligne 32: Ligne 32:
 ==== b) Par combinaison de sous-corpus avec des opérateurs d'​intersection,​ union et différence ==== ==== b) Par combinaison de sous-corpus avec des opérateurs d'​intersection,​ union et différence ====
  
-CQP possède ​les opérateurs union, inter et diff. Cependant ces opérateurs ne travaillent qu'​avec des matchs et sont incapables de segmenter ou de fusionner des matches.+CQP permet de combiner des sous-corpus avec les opérateurs union, inter et diff.
  
-[SLH : feature] il serait très intéressant d'​augmenter la sémantique des opérateurs existants pour obtenir des opérateurs aux résultats plus "​intuitifs"​ et surtout plus utiles aux opérations sur les sous-corpus d'​utilisateurs de TXM.\\ Il y aurait également des applications à d'​autres commandes comme les Concordances calculées à partir de lignes d'​Index (les pivots correspondraient à l'​intersection entre la liste de matchs du résultat de la requête et la liste de matchs du corpus à l'​origine de l'​Index).+TXM commence à y donner accès, voir les tickets ; 
 +  * ANTRACT 2.0 : [[http://​forge.cbp.ens-lyon.fr/​redmine/​issues/​2623|#​2623]] 
 +  * ANTRACT 3.0 : [[http://​forge.cbp.ens-lyon.fr/​redmine/​issues/​2629|#​2629]] 
 +  * TXM 0.8.1 : [[http://​forge.cbp.ens-lyon.fr/​redmine/​issues/​1916|#​1916]] 
 + 
 +Cependant les opérateurs natifs union, inter et diff de CQP ne travaillent qu'​avec des matchs et sont incapables de segmenter ou de fusionner((voir l'​option coalesce des nouvelles commandes TXM)) des matches. 
 + 
 +[SLH : feature] il serait très intéressant d'​augmenter la sémantique des opérateurs existants pour obtenir des opérateurs aux résultats plus "​intuitifs"​ et surtout plus utiles aux opérations sur les sous-corpus d'​utilisateurs de TXM -> voir l'​option coalesce des spécifications des nouvelles commandes ensemblistes ​TXM.\\ Il y aurait également des applications à d'​autres commandes comme les Concordances calculées à partir de lignes d'​Index (les pivots correspondraient à l'​intersection entre la liste de matchs du résultat de la requête et la liste de matchs du corpus à l'​origine de l'​Index).
  
 ==== c) Par construction à partir d'une liste de matchs ==== ==== c) Par construction à partir d'une liste de matchs ====
Ligne 41: Ligne 48:
   * d'un fichier binaire encodant une liste de matchs   * d'un fichier binaire encodant une liste de matchs
   * d'un fichier texte décrivant une liste de match, avec un match par ligne.   * d'un fichier texte décrivant une liste de match, avec un match par ligne.
 +
 +
 +==== d) Par mise en relation de contraintes ====
 +
 +Exemple
 +
 +La sélection : "je cherche les passages d'une transcriptions où le résumé (de la transcription) contient '​Bardot'"​
 +se traduit par les requêtes :
 +  * les passages d'une transcriptions : "[] expand to sp" calculée sur le corpus
 +  * le résumé contient '​Bardot'​ : "​Bardot"​ calculée sur le sous-corpus du résumé du corpus
 +
 +De la sélection, on peut vouloir utiliser :
 +  * toute la transcription
 +  * le résumé
 +  * les passages
  
 ===== Résolution de requête sur structure ===== ===== Résolution de requête sur structure =====
Ligne 54: Ligne 76:
   * Assisté : l'​utilisateur choisi une structure encadrante et peut définir un test de sélection à partir de plusieurs des propriétés de la structure.   * Assisté : l'​utilisateur choisi une structure encadrante et peut définir un test de sélection à partir de plusieurs des propriétés de la structure.
   * Avancé : l'​utilisateur donne la requête CQL à utiliser -> l'​utilisateur est reponsable du respect de la règle de tomizof   * Avancé : l'​utilisateur donne la requête CQL à utiliser -> l'​utilisateur est reponsable du respect de la règle de tomizof
-  * Script : [SLH : feature] l'​utilisateur sélectionne la macro ou le script construisant le sous-corpus -> la macro est reponsable du respect de la règle de tomizof. Les macros construisant des sous-corpus sont stockées dans un répertoire dédié des macros et l'​interface de sélection de macro utilise ce lieu de référence pour établir la liste des macros utilisables. +  * Script ​(mode avancé ?) : [SLH : feature] l'​utilisateur sélectionne la macro ou le script construisant le sous-corpus -> la macro est reponsable du respect de la règle de tomizof. Les macros construisant des sous-corpus sont stockées dans un répertoire dédié des macros et l'​interface de sélection de macro utilise ce lieu de référence pour établir la liste des macros utilisables ​pour cette action. Ces macros doivent fournir leur liste de matchs par le biais d'une API à définir
-  * Fichier : [SLH : feature] l'​utilisateur sélectionne le fichier binaire ou texte représentant le sous-corpus à construire -> le fichier est reponsable du respect de la règle de tomizof.+  * Fichier ​(mode avancé ?) : [SLH : feature] l'​utilisateur sélectionne le fichier ​au format ​binaire ou au format ​texte représentant le sous-corpus à construire -> le fichier est reponsable du respect de la règle de tomizof. Le corrolaire de cette fonctionnalité est une nouvelle commande d'​export de la liste de matchs d'un sous-corpus.
public/specs_subcorpus.1576073318.txt.gz · Dernière modification: 2019/12/11 15:08 par slh@ens-lyon.fr