Outils pour utilisateurs

Outils du site


Panneau latéral

conversion_cattex_2009_-_multext

Conversion Cattex 2009 - Multext

Cette page est en cours de rédaction

Revenir à Étiquetage morphosyntaxique de français médiéval

Création d'un tableau de conversion

  • Légende
    • Colonnes
      • CATEG et TYPE : étiquette Cattex 2009-min
      • Contr. : indication de la forme contractée
      • Multext-cat : Catégorie multext (position 0)
      • Multext-type : Type multext (position 1)
      • Multext-autre : Bouts d'étiquettes nécessaires pour représenter CATTEX-min
    • Le tiret correspond à une catégorie ou à un trait non appliquable (e.g. sous-types de propositions, personne dans les participes)
      • Les tirets finaux sont supprimés
    • Le point représente une étiquette quelconque
  • Règle générale
    • une étiquette Cattex 2009-min est convertie en étiquette Multext/GRACE en deux lettres
      • sauf les cas où les distinctions CATTEX-min sont encodés à un niveau plus “profond” dans Multext (verbes, articles)

Solutions à valider

  • Recours à l'étiquette élargie nécessaire pour les verbes et les articles
  • Verbes : pas de distinction principal/auxiliaire dans Cattex
    • Choix : utiliser regexp [ma]
    • Options non retenues
      • utiliser le joker “.”
      • créer une nouvelle étiquette x
  • Pas d'équivalent à “cjg” (les types de forme Multext incluent les modes)
    • Choix : utiliser regexp [iscm]
    • Options non retenues
      • utiliser le joker “.”
      • créer une nouvelle étiquette x
  • Pas d'équivalent pour les étiquettes suivantes :
    • PROimp
      • Choix : 'Pp3n' (on considère que le genre neutre est le trait distinctif de l'impersonnel)
    • PROadv (“en” et “y”)
      • Choix : 'Pp3——-r', pour rester au plus proche de Cordial
    • PROord
      • Choix : 'Po', utiliser “o” comme pour les adjectifs
    • PROcom
      • Choix : 'Pg-…————–c' (nouveau trait 'c' pour composé), on peut re-catégoriser en pronom général Pg. Peut-être utiliser le trait “definiteness” (y en 10e position) ?
    • DETcom “ledit”
      • Choix : 'Dg-..-dc', on re-catégorise en déterminant général défini
    • ADVsub (Je me demande comment…)
      • Choix : 'Rw', on re-catégorise en adverbe relatif/interrogatif
    • RED
      • Choix : 'Xr', 'r' pour redondance
    • OUT
      • Choix : 'Xo', 'o' pour hors modèle
    • ETR
      • Choix : 'Xf', 'f' foreign
  • NB : le type “k” (cardinal) pour les pronoms, adjectifs et déterminants a été ajouté dans GRACE (n'existe pas dans Multext)
  • Désaccord concernant la ponctuation
    • “Yp” dans Cordial (mais Y = Abbreviation in Multext-East) / “F” dans GRACE
    • on choisit 'F'
  • Types de ponctuation
    • on utilise les sous-étiquettes Cordial (s = strong, w = weak, o = open parenthesis/quote, c = close parenthesis/quote)
    • on ajoute '[oc]' pour les parenthésés dont on ne connaît pas l'orientation
  • Pas de solution pour les contractions (N.B. Cordial traite “au” comme un simple déterminant défini)
    • on utilise une double étiquette avec “_” comme séparateur
      • Exemple : 'ADVgen.PROper' devient 'Rg_Pp'

Références

(Recherche Google 2013-07-22)

conversion_cattex_2009_-_multext.txt · Dernière modification: 2020/04/03 16:13 par alexei.lavrentev@ens-lyon.fr