Étapes :
form msd lemma lemma-source Gastebois NPR Gastebois T Gasteviande NPR Gastevïande Td Gastevïande NPR Gastevïande T Hurtebise NOM Hurtebise T
Algorithme :
Ce dictionnaire contient les colonnes suivantes dans cet ordre :
Fusionner les dictionnaires CLDMFLEX, CLAFRLEX et CLBFMLEX
Ce dictionnaire a les colonnes suivantes
SELECT lemma_ref,lemma_ref_src FROM CLFROLEX WHERE $lemma_src=$lemma AND msd_ref=$msd
par exemple la ligne
form=Je msd=pro lemma=je lemma_src=BFM
donne
SELECT lemma_ref,lemma_ref_src FROM CLFROLEX WHERE BFM=je AND msd_ref=pro
par construction CLFROLEX ne doit contenir qu'une seule ligne qui matche le test, sinon afficher un WARNING
SELECT DISTINCT * FROM frolex
Exporter FROLEX-BULK en frolex.tsv avec les colonnes : form, msd_cattex_conv2, lemma
[USERHOME]/TXM/.txm/TXM.ini
La macro s'exécute jusqu'au bout (avec TXM 0.7.8 du 2017-08-29).
Le fichier clfrolex.tsv produit n'est pas conforme à la spec :
frolex afrlex.tsv tmpDict form form word F_bfm ø F_bfm msd_afrlex msd ø msd_cattex_bfm ø pos msd_cattex_conv conv(msd_afrlex, NCA (AFRLEX) -> ctx9-nca) conv(pos, Cattex2009min -> ctx9-nca) lemma lemma ø lemma_src lemma_source ø comment ø ø
(utiliser apparition la plus ancienne et disparition la plus récente)
[lemma=A&lemma_src=DMF ; lemma=A1&lemma_src=GDF ; lemma=A&lemma_src=DECT]
[lemma=A&lemma_src=BFM ; lemma=A1&lemma_src=GDF ; lemma=A&lemma_src=DECT]
[lemma=A&lemma_src=BFM]
Ce chantier mobilise le développement du nouveau composant Dictionnaire de TXM.
MD
J'ai pu réaliser un modèle treetagger fro2.par qui lemmatise en partie BFMGOLD.
La recette est entièrement re-jouable en utilisant :
Fichiers lexiques : lemmatisation_fro
Tableaux de conversions : etiquetage