Outils pour utilisateurs

Outils du site


public:palafra_lemmatisation_fro

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:palafra_lemmatisation_fro [2018/12/07 09:22]
alexei.lavrentev@ens-lyon.fr Links to prive:choix_conversions_etiquettes changed to public:choix_conversions_etiquettes
public:palafra_lemmatisation_fro [2020/02/18 14:22] (Version actuelle)
alexei.lavrentev@ens-lyon.fr [Lemmatisation automatique]
Ligne 20: Ligne 20:
 La lemmatisation automatique est implémentée dans les corpus PALAFRAFRO-V2-1,​ PALAFRAFRO-V2-2 et PALAFRAPAR. La lemmatisation automatique est implémentée dans les corpus PALAFRAFRO-V2-1,​ PALAFRAFRO-V2-2 et PALAFRAPAR.
  
-Elle utilise TreeTagger, le lexique [[lexique_fro|FROLEX v2]] (accès restreint) ​et import XTZ en deux phases :+Elle utilise TreeTagger, le lexique [[public:lexique_fro|FROLEX v2]] et import XTZ en deux phases :
 [[https://​groupes.renater.fr/​wiki/​palafra/​prive/​palafrafro-v2|voir la procédure]] (accès restreint). [[https://​groupes.renater.fr/​wiki/​palafra/​prive/​palafrafro-v2|voir la procédure]] (accès restreint).
  
Ligne 32: Ligne 32:
   - Idem dans le lexique formaté pour le TreeTagger ​   - Idem dans le lexique formaté pour le TreeTagger ​
  
-La table de correspondance clfrolex.tsv devrait résoudre tous ces problèmes, mais elle est boguée (cf. [[lexique_fro|prive:lexique_fro]],​ retour du 27/09/2017)+La table de correspondance clfrolex.tsv devrait résoudre tous ces problèmes, mais elle est boguée (cf. [[lexique_fro|lexique_fro]],​ retour du 27/09/2017)
  
 Une fois les problèmes du lexique et du corpus gold réglés, il faut comparer la qualité des résultats fournis par le TreeTagger et par LGerRM, notamment sur les formes inconnues (voir ce que propose LGeRM lorsque TT met <​nolem>​). Une fois les problèmes du lexique et du corpus gold réglés, il faut comparer la qualité des résultats fournis par le TreeTagger et par LGerRM, notamment sur les formes inconnues (voir ce que propose LGeRM lorsque TT met <​nolem>​).
Ligne 70: Ligne 70:
     * Slethgier     * Slethgier
     * regcrim1 (extrait 10000 mots, non intégré, hors corpus PALAFRA)     * regcrim1 (extrait 10000 mots, non intégré, hors corpus PALAFRA)
 +  - Texte lemmatisé manuellement (lemmes DMF/BFM, T. Rainsford) :
 +    * AlexisRaM
   - Textes en cours de vérification   - Textes en cours de vérification
-    * AlexisRaM (TMR)+    * ...
   - Textes prêts à être vérifiés   - Textes prêts à être vérifiés
     * qgraal_cm     * qgraal_cm
public/palafra_lemmatisation_fro.1544170979.txt.gz · Dernière modification: 2018/12/07 09:22 par alexei.lavrentev@ens-lyon.fr