Outils pour utilisateurs

Outils du site


public:palafra_lemmatisation_fro

Projet PALAFRA : Lemmatisation du français médiéval

cf. Lemmatisation de français médiéval (wiki de la BFM)

  • étape I : on produit des textes lemmatisés en TSV et NK les corrige dans Excel
    • NK crée
      • de nouvelles associations forme-pos-lemme (dmf)
      • des nouveaux lemmes (dmf)
      • elle peut revenir sur des textes dont les lemmes sont déjà vérifiés
    • AL convertit les textes corrigés en XML-TEI BFM et les commite dans SVN
    • MD importe les relations forme-pos-lemme dans FROLEX
      • il y a une liste des textes BFM-frolex de référence pour construire FROLEX
      • les textes XML-TEI de référence (dont BFMGOLD) sont dans le SVN BFM
  • étape II : on intègre la lemmatisation et sa correction dans TXM

État d'avancement de la lemmatisation

Lemmatisation automatique

La lemmatisation automatique est implémentée dans les corpus PALAFRAFRO-V2-1, PALAFRAFRO-V2-2 et PALAFRAPAR.

Elle utilise TreeTagger, le lexique FROLEX v2 et import XTZ en deux phases : voir la procédure (accès restreint).

Plusieurs problèmes restent à résoudre :

  1. Dans les textes lemmatisés avec vérification, il faut convertir les lemmes DECT (Tobler Lommatzch) en DMF
  2. Dans le lexique frolex, il faut supprimer les lemmes des autres sources lorsqu'il y a un équivalent DMF
    • Par exemple : pour la forme estre (verbe) on a
      • estre 1377 15944 VERppe|VERinf verbe VERxxx VER être1|estre4|estre1|estre2 DMF|DECT
    • on de devrait garder que être1 (estre1 est équivalent DECT d'être1, estre4 et estre2 ne sont pas des verbes… c'est une erreur du lexique)
  3. Idem dans le lexique formaté pour le TreeTagger

La table de correspondance clfrolex.tsv devrait résoudre tous ces problèmes, mais elle est boguée (cf. lexique_fro, retour du 27/09/2017)

Une fois les problèmes du lexique et du corpus gold réglés, il faut comparer la qualité des résultats fournis par le TreeTagger et par LGerRM, notamment sur les formes inconnues (voir ce que propose LGeRM lorsque TT met <nolem>).

Dans le cadre de Profiterole, il faudrait voir si d'autres outils de lemmatisation donnent de meilleurs résultats

  • pour la production du lexique
  • pour l'apprentissage sur le corpus gold
  • pour la lemmatisation automatique

Il faut voir surtout le cas où le lexique (après l'élimination des doublons) contient plusieurs lemmes pour une même paire forme+étiquette. Par exemple : suis VERcjg être|suivre

Idéalement, le lemmatiseur devrait tenir compte du contexte (les occurrences de être et suivre n'ont pas les mêmes contextes) ou le cas échéant de la fréquence dans le corpus gold pour proposer la meilleure hypothèse.

Ces outils, peuvent-ils s'intégrer à l'import BFM ?

Lemmatisation vérifiée

cf. http://txm.bfm-corpus.org/?command=page&path=/PALAFRAFRO-V2-1/PALAFRAFRO-V2-1-Textes lemmatisés

  1. Textes lemmatisés provenant du corpus DECT (lemmes DECT/TL, P. Kunstmann), voir les remarques sur les lemmes du DECT
    • CharretteKu
    • CligesKu
    • ErecKu
    • PercevalKu
    • YvainKu
  2. Textes lemmatisés avec LGeRM et vérifiés (lemmes DMF/BFM, N. Kanaoka)
    • brut2
    • chartes_hain13 (intégré PALAFRAFRO-V2-2)
    • DialGreg2
    • moree (extrait 10000 mots, non intégré, hors corpus PALAFRA)
    • passion
    • roland
    • SBath1
    • SEustach
    • SGenPr1
    • Slethgier
    • regcrim1 (extrait 10000 mots, non intégré, hors corpus PALAFRA)
  3. Texte lemmatisé manuellement (lemmes DMF/BFM, T. Rainsford) :
    • AlexisRaM
  4. Textes en cours de vérification
  5. Textes prêts à être vérifiés
    • qgraal_cm
  6. Textes à préparer
    • DescrEngl
    • aucassin
    • stbrend

Déroulement

Étape I textes lemmatisés en TSV et NK les corrige dans Excel

Objectifs

  • Objectif A (intermédiaire) : Mettre en ligne un lexique libre et des textes en ancien français étiquetés et/ou lemmatisés libres
  • Objectif B : faire le lexique utilisant les lemmes du DMF
    • étape a : lexique d'Achim Stein + lexique de la BFM + les textes étiquetés Cattex de la BFM
    • étape b : idem + DMF pour sa relation au TL, ça permettra de mettre les lemmes du DMF
    • étape c : idem + FEW pour sa relation avec les lemmes latins
  • Objectif C : faire le lien entre un mot lemmatisé de la BFM et une fiche du DMF
  • Objectif D : communiquer avec l'ATILF à partir du résultat de l'étape a de l'objectif B
  • Objectif E : lemmatiser les textes de la BFM
  • Objectif F : communiquer avec le DEAF (?)
  • Objectif G : faire un lexique du latin médiéval

Planning

Chantiers

choix et conversions des étiquettes
lexique
BFMGOLD : textes étiquetés

Le corpus d'apprentissage BFMGOLD de w@type vérifiés est fourni par AL en plusieurs phases.*

Les ressources nécessaires sont versionnées dans le SVN privé de la BFM :

svn checkout https://forge.cbp.ens-lyon.fr/svn/bfm

Le corpus est a importer avec le module XTZ+CSV

  • Les fichiers XML trouvent dans le dossier : Textes/1. Sources XML/1. Entrepôt/TEIP5-BFM
    • identifiés par la metadonnée “BFMGOLD” (colonne 50, il n'y a pas d'étiquette de colonne) dans la table Entêtes TEI/Entete-BFM2.txt
      • Valeur “-” = oui (“0” == non)
  • avec la XSL front : Feuilles de style/XSLT/txm-filter-bfmgold-xtz.xsl
  • sans refaire la tokenisation
  • sans lancer TreeTagger
  • sans edition

Il est fourni dans le répertoire ensldfs BFMGOLD

lemmatisation

Dans un premier temps on combine l'usage de LGeRM et d'une projection de lemme sur les textes ayant une pos vérifiée, puis on appliquera TreeTagger avec un modèle contenant les lemmes souhaités.

Lemmes utilisés
  • On utilise le lemme DMF comme lemme principal
  • S'il n'y a pas de lemme DMF correspondant, on propose à l'ATILF :
    • qu'ils les valident
    • qu'ils les hébergent pour qu'on puisse s'y référer
Principes de création des lemmes
  • Verbes pronominaux
    • Dans le DMF les verbes qui sont toujours pronominaux contiennent un _('s) dans la forme du lemme
    • le lien vers ces lemmes est cassé (il faut enlever le 's)
    • Pour les verbes qui ne sont pas toujours pronominaux les emplois pronominaux sont traités comme une section de l'article (il n'y a qu'un seul lemme)
Sans TreeTagger avec un corpus étiqueté en pos

Projection de lemme en fonction de la forme et de la pos :

→ un texte lemmatisé à corriger est un tableau TSV

Avec LGeRM

→ un texte lemmatisé à corriger est un tableau TSV

  • Création d'une concordance
    • Pour lemmatiser un fichier XML-TEI P5 étiqueté de la BFM nomme fichier.xml
    • Appliquer la feuille de style bfmP5-lgerm.xsl –> fichier.txt
    • Utiliser l'interface web http://www.atilf.fr/LGeRM/ : lemmatiser un fichier
      • utiliser l'option d'affichage XML
    • Copier coller le résultat dans Oxygen
    • Ajouter l'élement racine <text> –> fichier-lemm.xml
    • Appliquer la feuille de style lgerm-table.xsl à fichier-lemm.xml –> fichier-lemm-tab.html
    • Appliquer la feuille de style bfmP5-texte_brut-conc.xsl à fichier.xml –> fichier-conc.txt
    • Ouvrir fichier-lemm-tab.html et fichier-conc.txt avec Calc et fusionner les tables en vérifiant la synchronisation –> fichier-lemm.tsv
      • le colonnes du tableau contenant les lemmes LGeRM doivent se situer à gauche des colonnes de la concordance, soit :
formelgerm	DMF	lemmes-etiquettes	n	avant	m	ms	forme	lemme	après	id
    • Dans le script filter-lemmas2.pl, mettre à jour le nom du fichier à traiter
    • Lancer le script, le résultat est enregistré dans fichier-lemm-tab.html
    • Ouvrir fichier-lemm-tab.html avec Calc et enregistrer sous XLSX
    • Eventuellement, récupérer les étiquettes de RNNTagger (Vacation Cristina/Corpus étiqueté (RNN Tagger, NLP Pie)/Corpus etiquette (fichiers tsv)) et ajouter une colonne “pos-rnn”
  • Injection des lemmes corrigés
    • Vérifier le fichier XSLX
      • forcer le formatage “texte” des cellules
      • vérifer les lemmes “vrai”
      • trier par lemme et vérifier le début et la fin de la liste
      • chercher les parenthèses dans la colonne lemme (commentaires de l'annotateur) et les déplacer éventuellement dans une autre colonne
      • enregistrer sous .tsv
Intégration des résultats de la projection et de LGeRM

On améliore la projection (étape 2) et on compare le résultat avec LGerM.

Si la projection est meilleure : on abandnone LGeRM sinon voir TreeTagger ou autre.

Avec TreeTagger

→ un texte lemmatisé à corriger est un tableau TSV

AL-SH-MD

NK-AL-CG

  • étape 5 : recenser les trous de lemmes
    • trous inconnus de l'ATILF
    • trous non donnés par l'ATILF
  • étape 6 : construire les lemmes nécessaires avec les principes de E
  • étape 7 : apprentissage complet
Avec Pandora
  • à étudier

Étape II : intégration de la lemmatisation et de sa correction dans TXM

On intègre la lemmatisation et sa correction dans TXM, voir Chantier PALAFRA (projet ANR-DFG PALAFRA).

Annexes

Dossier partagé :

smb://ensldfs/services/Laboratoires/labo_ana_corpus/Projets/BFM/Projets/PaLaFra/lemmatisation_fro

Dossier partagé (google Drive) (accès restreint, lien sur intranet du projet)

Journal (wiki de la BFM) (copie du fichier TODO dans le dossier de travail)

public/palafra_lemmatisation_fro.txt · Dernière modification : 26/07/2022 16:36 de alexei.lavrentev@ens-lyon.fr