Différences

Cette page vous donne les différences entre la révision choisie et la version actuelle de la page.

public:retours_sur_les_corpus_exemples [2012/07/20 15:48]
benedicte.pincemin@ens-lyon.fr
public:retours_sur_les_corpus_exemples [2012/10/19 15:06] (version actuelle)
benedicte.pincemin@ens-lyon.fr
Ligne 6: Ligne 6:
    * le repérage des phrases (qui est fait pour l'une et pas pour l'autre)     * le repérage des phrases (qui est fait pour l'une et pas pour l'autre)
  * attention aux apostrophes non reconnues comme telles, cela a plusieurs impacts :   * attention aux apostrophes non reconnues comme telles, cela a plusieurs impacts :
-    * tokenisation : dans certaines versions du corpus (celle qui était sur TXM WEB démo ?) on avait des mots comme "qu'elle" +    * tokenisation : la version dans TXM WEB ne segmentait pas sur tout ou partie des apostrophes  
-    * étiquetage : dans la version téléchargeable pour la RCP, "C'" est un nom propre (NAM), le lemme de "j'" n'est pas "je"+    * étiquetage : dans la version téléchargeable pour la RCP, les majuscules suivi d'un apostrophe sont des noms propres (NAM), "j'" est lemmatisé "je" pour 8 occurrences, restent 69 occurrences
    * spécificités : les spécificités chez Chirac montrent qu'il y a une concentration d'apostrophes non reconnues chez lui -dommage que cela occupe massivement la tête de liste     * spécificités : les spécificités chez Chirac montrent qu'il y a une concentration d'apostrophes non reconnues chez lui -dommage que cela occupe massivement la tête de liste
-    * point connu, pour quand on aura le temps : retravailler l'édition, pour éviter les retours à la ligne intempestifs (voir si au passage cela permettrait de définir une structure paragraphe ?) et ajouter au début de chaque texte un rappel des métadonnées permettant de l'identifier commodément.+  * point connu, pour quand on aura le temps : retravailler l'édition, pour éviter les retours à la ligne intempestifs (voir si au passage cela permettrait de définir une structure paragraphe ?) et ajouter au début de chaque texte un rappel des métadonnées permettant de l'identifier commodément
 +  * mettre à jour en ajoutant les derniers discours de voeux (il en manque 2 ou 3).
public/retours_sur_les_corpus_exemples.1342792092.txt.gz · Dernière modification: 2012/07/20 15:48 par benedicte.pincemin@ens-lyon.fr