cf. Lemmatisation de français médiéval (wiki de la BFM)
La lemmatisation automatique est implémentée dans les corpus PALAFRAFRO-V2-1, PALAFRAFRO-V2-2 et PALAFRAPAR.
Elle utilise TreeTagger, le lexique FROLEX v2 et import XTZ en deux phases : voir la procédure (accès restreint).
Plusieurs problèmes restent à résoudre :
La table de correspondance clfrolex.tsv devrait résoudre tous ces problèmes, mais elle est boguée (cf. lexique_fro, retour du 27/09/2017)
Une fois les problèmes du lexique et du corpus gold réglés, il faut comparer la qualité des résultats fournis par le TreeTagger et par LGerRM, notamment sur les formes inconnues (voir ce que propose LGeRM lorsque TT met <nolem>).
Dans le cadre de Profiterole, il faudrait voir si d'autres outils de lemmatisation donnent de meilleurs résultats
Il faut voir surtout le cas où le lexique (après l'élimination des doublons) contient plusieurs lemmes pour une même paire forme+étiquette. Par exemple : suis VERcjg être|suivre
Idéalement, le lemmatiseur devrait tenir compte du contexte (les occurrences de être et suivre n'ont pas les mêmes contextes) ou le cas échéant de la fréquence dans le corpus gold pour proposer la meilleure hypothèse.
Ces outils, peuvent-ils s'intégrer à l'import BFM ?
cf. http://txm.bfm-corpus.org/?command=page&path=/PALAFRAFRO-V2-1/PALAFRAFRO-V2-1-Textes lemmatisés
…
Voir : choix_conversions_etiquettes
Voir : Lexique frolex
Le corpus d'apprentissage BFMGOLD de w@type vérifiés est fourni par AL en plusieurs phases.*
Les ressources nécessaires sont versionnées dans le SVN privé de la BFM :
svn checkout https://forge.cbp.ens-lyon.fr/svn/bfm
Le corpus est a importer avec le module XTZ+CSV
Il est fourni dans le répertoire ensldfs BFMGOLD
Dans un premier temps on combine l'usage de LGeRM et d'une projection de lemme sur les textes ayant une pos vérifiée, puis on appliquera TreeTagger avec un modèle contenant les lemmes souhaités.
Projection de lemme en fonction de la forme et de la pos :
→ un texte lemmatisé à corriger est un tableau TSV
→ un texte lemmatisé à corriger est un tableau TSV
formelgerm DMF lemmes-etiquettes n avant m ms forme lemme après id
On améliore la projection (étape 2) et on compare le résultat avec LGerM.
Si la projection est meilleure : on abandnone LGeRM sinon voir TreeTagger ou autre.
→ un texte lemmatisé à corriger est un tableau TSV
AL-SH-MD
NK-AL-CG
On intègre la lemmatisation et sa correction dans TXM, voir Chantier PALAFRA (projet ANR-DFG PALAFRA).
Dossier partagé :
smb://ensldfs/services/Laboratoires/labo_ana_corpus/Projets/BFM/Projets/PaLaFra/lemmatisation_fro
Dossier partagé (google Drive) (accès restreint, lien sur intranet du projet)
Journal (wiki de la BFM) (copie du fichier TODO dans le dossier de travail)