Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_notices

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
public:antract:antract_corpus_notices [2019/10/07 15:16]
slh@ens-lyon.fr [Version 3]
public:antract:antract_corpus_notices [2020/04/06 18:25] (Version actuelle)
benedicte.pincemin@ens-lyon.fr
Ligne 421: Ligne 421:
   * Pour les recherches il faut bien avoir conscience que quand une structure est vide (par exemple '​sequences'​),​ alors elle est absente du texte (notice) ; d'​autant que ce doit être le comportement général de CQP (pas de structures vides).   * Pour les recherches il faut bien avoir conscience que quand une structure est vide (par exemple '​sequences'​),​ alors elle est absente du texte (notice) ; d'​autant que ce doit être le comportement général de CQP (pas de structures vides).
   * Dans les résumés ou séquences, dans les sources, on a quelquefois un tiret qui n'est pas précédé par un retour chariot et est collé au mot précédent (et suivi d'un blanc) : dans ce cas, la tokenisation est mauvaise (le tiret est collé au mot qui précède). Une correction des sources qui repérerait ce motif et ajouterait un retour chariot pourrait être une solution. En l'​état l'​impact reste limité (17 occurrences sur tout le corpus de [sequences & word="​\p{L}+-"​]).   * Dans les résumés ou séquences, dans les sources, on a quelquefois un tiret qui n'est pas précédé par un retour chariot et est collé au mot précédent (et suivi d'un blanc) : dans ce cas, la tokenisation est mauvaise (le tiret est collé au mot qui précède). Une correction des sources qui repérerait ce motif et ajouterait un retour chariot pourrait être une solution. En l'​état l'​impact reste limité (17 occurrences sur tout le corpus de [sequences & word="​\p{L}+-"​]).
 +
 +== BP, 6 avril 2020 ==
 +
 +  * Le champs Séquences comporte des tabulations. Cela interfère si on fait un export de concordance avec les paramètres par défaut. Étudier peut-être leur remplacement par des espaces avant import ?
  
public/antract/antract_corpus_notices.txt · Dernière modification: 2020/04/06 18:25 par benedicte.pincemin@ens-lyon.fr