Outils pour utilisateurs

Outils du site


public:choix_conversions_etiquettes

Étiquettes morphologiques

Les fichiers de conversion à jour se trouvent dans le disque partagé : conversions

Liste des jeux

  • Cattex2009
  • AFRLEX (NCA)
  • PALM
  • Multext
  • ColaMer
  • CompHistSem
  • DMF

Procédure de conversion

La première étape consiste à établir les correspondances entre les jeux Cattex2009, AFRLEX (NCA) et PALM. Tous les tableaux de correspondances sont rassemblés dans une base de données TAGSETS.odb stockée dans le dossier :

smb://ensldfs/services/Laboratoires/labo_ana_corpus/Projets/BFM/Etiquetage

Dans un premier temps, on utilise le jeu CATTEX2009 “dégradé” comme pivot des conversions. Une conversion en multext des différents états du jeu Cattex peut être envisagée dans un deuxième temps.

Les relations entre les différents tableaux de données sont représentées dans le graphe suivant :

Relations des jeux d'étiquettes

Conversion AFRLEX --> CATTEX2009

Problèmes :

  • PROCON –> on duplique les lignes : PROrel + CONsub (étiquette composée PROrel|CONsub dans le tableau de conversion)
  • VER –> on utilise une étiquette sous-definie : VERxxx et on utilise les étiquettes plus précises de la BFM lors de la fusion des lexiques afr et bfm
    • VERér, VERés –> on convertir en VERxxx
  • Absence d'équivalent pour DETcar, PROcar et PROord –> on miltiplie les lignes dans le lexique : ADJcar|DETcar|PROcar et ADJord|PROord

Conversion AFRLEX (ou CATTEX) --> MULTEXT

Correspondance ColaMer / CompHistSem / Cattex

Conversion PALM --> CATTEX2009 (ctx9-palm)

Tableau de conversion

PALM	ctx9-palm
A	ADJxxx
ADV	ADVxxx
CONJC	CONcoo
CONJS	CONsub
DET	DETxxx
INTJ	INJ
Nc	NOMcom
Np	NOMpro
NUMcard	ADJcar|DETcar|PROcar
NUMord	ADJord|PROord
Ponctuation	PONxxx
PREP	PRE
PRO	PROxxx
V	VERxxx

Conversion DMF --> CATTEX2009 (ctx9-dmf)

Tableau de conversion

  • utilise des expressions régulières
  • l'ordre d'application des règles est significatif
  • lorsque la colonne “ctx9-dmf” contient un “+”, il faut dupliquer les entrées (créer autant d'entrées que d'étiquettes cibles séparées par un “+”)
\(\?\)	OUT
\(null\)	OUT
adj\., adv.* subst.*	APD+ADV+NOMcom
adj\., subst.* adv.*	APD+ADV+NOMcom
adj\..* subst.*	APD+NOMcom
adj\..*adv\.	APD+ADV
adj\..* pron\..*	APD+PRO
adj.*	APD
adv\..*prép\..*subst.*	ADV+PRE+NOMcom
adv\..*conj.*	ADV+CON
adv\..*prép.*	ADV+PRE
adv\..*adj.*	ADV+APD
adv\..*subst.	ADV+NOMcom
adv\..*	ADV
art\..*adj.	DET+APD
art.*	DET
conj\..*rel.*	CON+APD
conj\..*adv.*	CON+ADV
conj.*	CON
dém.	APD
indéf\..*adv.*	APD+ADV
indéf.*	APD
indéterminé	OUT
interj\..*subst.*	INJ+NOMcom
interj.*	INJ
interr.*	APD
loc\..*lat.	ETR
loc\..*adv.*	ADV
loc\..*conj.*	CON
loc.*	OUT
mot étranger	ETR
mot exclu	OUT
mot lat.*	ETR
nombre	APD
nom de lieu	NOMpro
nom propre.* subst.*	NOMpro+NOMcom
nom propre.*	NOMpro
num.*	APD
part.*	VER
ponctuation	PON
poss.*	APD
préf.*	OUT
prép. + pron. pers.	PRE.PRO
prép\..*adv.*	PRE+ADV
prép\. et art. contractés	PRE.DETdef
prép\..*conj.*	PRE+CON
prép.*	PRE
pron\. adv. et pers\.	APD+PRO
pron\..*adv.*	APD+ADV
pron\. pers.*	PRO
pron.*	APD
rel.*	APD
subst\..*adj\..*adv.*	NOMcom+APD+ADV
subst\..*adv\..*pron.*	NOMcom+ADV+APD
subst\..*adj.*	NOMcom+APD
subst\..*adv.*	NOMcom+ADV
subst\..*pron.*	NOMcom+APD
subst\..*interj.*	NOMcom+INJ
subst.*	NOMcom
suff.*	OUT
-.*	OUT
verbe.*	VER

Conversion CATTEX2009 vers Cattex compatible DMF (ctx9-dmf)

Tableau de conversion (utilisant des expressions régulières, l'ordre de traitement est significatif)

ABR	OUT
ADJ.*	APD
ADV.*	APD
AdV.*	APD
CON.*	CON
DETdef	DET
DETndf	DET
DET.*	APD
ETR.*	ETR
INJ.*	INJ
INT	INJ
NOMcom	NOMcom
NOMpro	NOMpro
OUT	OUT
PONfrt	PONfrt
PON.*	PON
PRE.*	PRE
PROper	PRO
PRO.*	APD
RED	OUT
RES	OUT
VER.*	VER

Conversion CATTEX vers UD

Voir la page correspondante sur le wiki BFM.

public/choix_conversions_etiquettes.txt · Dernière modification : 07/12/2018 09:22 de alexei.lavrentev@ens-lyon.fr