Outils pour utilisateurs

Outils du site


public:retours_sur_les_corpus_exemples

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:retours_sur_les_corpus_exemples [2012/07/20 15:48]
benedicte.pincemin@ens-lyon.fr
public:retours_sur_les_corpus_exemples [2012/10/19 15:06] (Version actuelle)
benedicte.pincemin@ens-lyon.fr
Ligne 6: Ligne 6:
     * le repérage des phrases (qui est fait pour l'une et pas pour l'​autre)     * le repérage des phrases (qui est fait pour l'une et pas pour l'​autre)
   * attention aux apostrophes non reconnues comme telles, cela a plusieurs impacts :   * attention aux apostrophes non reconnues comme telles, cela a plusieurs impacts :
-    * tokenisation : dans certaines versions du corpus (celle qui était sur TXM WEB démo ?) on avait des mots comme "​qu'​elle" ​+    * tokenisation : la version ​dans TXM WEB ne segmentait pas sur tout ou partie ​des apostrophes  ​
-    * étiquetage : dans la version téléchargeable pour la RCP, "C'" est un nom propre ​(NAM), ​le lemme de "​j'" ​n'est pas "​je"​+    * étiquetage : dans la version téléchargeable pour la RCP, les majuscules suivi d'​un ​apostrophe sont des noms propres ​(NAM), "​j'"​ est lemmatisé ​"​je" ​pour 8 occurrences,​ restent 69 occurrences
     * spécificités : les spécificités chez Chirac montrent qu'il y a une concentration d'​apostrophes non reconnues chez lui -dommage que cela occupe massivement la tête de liste     * spécificités : les spécificités chez Chirac montrent qu'il y a une concentration d'​apostrophes non reconnues chez lui -dommage que cela occupe massivement la tête de liste
-    ​* point connu, pour quand on aura le temps : retravailler l'​édition,​ pour éviter les retours à la ligne intempestifs (voir si au passage cela permettrait de définir une structure paragraphe ?) et ajouter au début de chaque texte un rappel des métadonnées permettant de l'​identifier commodément.+  ​* point connu, pour quand on aura le temps : retravailler l'​édition,​ pour éviter les retours à la ligne intempestifs (voir si au passage cela permettrait de définir une structure paragraphe ?) et ajouter au début de chaque texte un rappel des métadonnées permettant de l'​identifier commodément
 +  * mettre à jour en ajoutant les derniers discours de voeux (il en manque 2 ou 3).
public/retours_sur_les_corpus_exemples.1342792092.txt.gz · Dernière modification: 2012/07/20 15:48 par benedicte.pincemin@ens-lyon.fr