Outils pour utilisateurs

Outils du site


public:palafra_lemmatisation_fro:lemmatisation_diagnostic

Diagnostic de la lemmatisation

On applique la recette de la spec v2.

Tests à effectuer

Sur le corpus BFMGOLD

  • on compare les lemmes vérifiés avec les lemmes automatiques: [lemma=fro2lemma] :
    • lemmes vérifiés mais non homogènes (BFM et DECT)
      • surface : 32,64% des occurrences sont corrects (112.978 occurrences sur 346.115 occurrences)
      • lexique : 63,5% du vocabulaire des lemmes sont corrects (5515 formes de lemmes sur 8685 formes de lemmes)
    • 46.173 match sur 102.163 lemmes vérifiés BFM (45,20%) ; 3511 sur 4359 lemmes différents (81,69%)
  • pour vérifier si les lemmes automatiques contiennent le bon lemme dans lemmes vérifiés BFM, on procède comme ceci :
    • application d'une XSLT update-lemmas-filter-match.xsl aux fichiers XML-TXM du corpus, qui
      • crée une nouvelle propriété lemma-match
        • “full” si les valeurs de lemma et fro2lemma lemma sont identiques
        • “part” si fro2parlemma contient lemma (séparé des autres lemmes par “|”)
        • “no” si pas de match
    • Résultats :
      • full 46165
      • part 52184
      • no 2304 (2,29 %)
  • vérifier les mots avec les majuscules
  • vérifier les lemmes de la partie du corpus non lemmatisée
«_"_PONpga_«_PON	362
»_"_PONpdr_»_PON	361
nus_nous_PROper_nu|nul_APD	35
ad_à_PRE_avoir1_VER	32
lur_leur1_PROper_lor|leur2|lor2_APD	32
a_à_PRE_a|avoir|avoir1_VER	31
mort_mourir_VERppe_mort|mors|mort2|morir|mort1_NOMcom	24
par_par2_ADVgen_par|par3|par1_PRE	23
se_son4_DETpos_se2|si3|soi1|se|si_CON	23
s'_si3_CONsub_soi1|son4|se|se1|si_PRO	16
nun_non_ADVneg_nun|nom_NOMcom	15
s'_se1_PROper_se2|soi1|si3|son4|se|si_CON	15
se_se1_PROper_se2|si3|soi1|se|si_CON	15
cel_ciel_NOMcom_celui|cil|cel|ce2_APD	14
...

Propositions d'amélioration

  • lors de la création du lexique pour le TreeTagger, enlever les chiffres dans les lemmes (renvoi aux articles du DMF) et supprimer les doublons
public/palafra_lemmatisation_fro/lemmatisation_diagnostic.txt · Dernière modification: 2017/10/06 17:48 par alexei.lavrentev@ens-lyon.fr