Outils pour utilisateurs

Outils du site


Panneau latéral

public:lemmatisation_fro_journal

Retour à Projet PALAFRA : Lemmatisation du français médiéval

Lemmatisation de français médiéval. Journal

2015-06-03 AL

  • Création du dossier de travail :
    • smb://ensldfs/services/Laboratoires/labo_ana_corpus/Projets/BFM/Projets/PaLaFra/lemmatisation_fro
  • Récupération des lexiques à partir du dossier
    • smb://ensldfs/services/Laboratoires/labo_ana_corpus/Projets/BFM/Projets/MorphoMultiDim
      • afrlex
      • afrglex.txt (lexique fusionné avec BFM 2009 et conversion d'étiquettes vers Cattex)
  • Récupération d'une autre version du lexique à partir de la distribution NCA :
    • afrlex –> afrlex-nca
  • Déplacement du dossier
    • smb://ensldfs/services/Laboratoires/labo_ana_corpus/Projets/Lemmatisation vers
    • smb://ensldfs/services/Laboratoires/labo_ana_corpus/Projets/BFM/Projets/PaLaFra/lemmatisation_fro/lemmatisation-bfm-2013
  • Comparaison des lexiques :
AFRLEXAFRLEX-NCA
Lignes235199234671
présence de “+” et de “*” dans certains lemmes devant la référence au dictionnaire (+T, +I…)
présence de formes et lemmes supplémentaires
présence des étiquettes VERér et VERés, apparemment toujours en doublon avec “VER + [même lemme]“
  • Création d'un tableau de synthèse
    • en cas de lemmes multiples pour une forme, on multiplie les lignes
  • Algo (implémenté en Perl):
my $file = "afrlex";

open (IN,$file) || die "Cannot read from $file\n";
open (OUT, ">$file.$$") || die "Cannot write to $file.$$\n";

print OUT "form\tmsd\tlemma\tlemma-source\n";

my @lines = <IN>; close IN;

for my $line (@lines) {
#	print $line;
	if ($line =~ m/^([^\t]*)\t(.*)$/) {
		#la forme est le premier segment avant tabulation
		my $form = $1;
		#le reste sont des annotations : msd + lemmes
		my $annotations = $2;
		until ($annotations =~ m/^\s*$/) {
			#on traite les annotations en boucle par paire de valeurs séparées par une tabulation
			$annotations =~ m/^\t?([^\t]*)\t([^\t]*)(.*)$/;
			#la 1ère valeur est l'étiquette morphosyntaxique
			my $msd = $1;
			#la seconde est un ensemble lemme_source éventuellement multiples avec séparation par type
			my $lemmesrefs = $2;
			$annotations = $3;
			#s'il y a un "_", on parse
			if ($lemmesrefs =~ m/^([^_]*)_([^_]*)$/) {
				my @lemmes = split/\|/, $1;
				my @refs = split/\|/, $2;
				my $counter = 0;
				foreach my $lemme (@lemmes) {
					print OUT "$form\t$msd\t$lemme\t$refs[$counter]\n";
					$counter++;
				}
			}
			#sinon on copie simplement
			else {
				my @lemmes = split/\|/, $lemmesrefs;
				foreach my $lemme (@lemmes) {
					print OUT "$form\t$msd\t$lemme\t\n";
				}
			}
		}
	}
	else {
		print "ERROR in line format: $line\n"
	}
}

close OUT;
rename "$file.$$","$file-tab" || die "Cannot write to $file-tab\n";

2015-12-17 AL

Préparation à la conversion des étiquettes

Ouverture du lexique afrlex-tab en Calc. Le fichier s'ouvre, mais se bloque assez longtemps à l'enregistrement avant de re-marcher.

Problème de conversion des virgules –> 28 occurrences de virgules collées à des lemmes/formes, e.g.

aieres,arriere	ADV	ariere_T	PRE	ariere_T
galanga,	NOM	galanga,_T
galangue	NIL	galange_G	NOM	galanga,_T

On ne touche pas à ces occurrences.

2016-09-07 AL

Lemmatisation avec LGeRM des textes avec étiquetage vérifié

voir https://groupes.renater.fr/wiki/palafra/public/palafra_lemmatisation_fro

2016-12-12 AL

édité le 2017-02-24

Injection des lemmes vérifiés

  • Vérification des fichiers xlsx
    • la colonne “lemme” peut contenir des points d'interrogation, des indications de source (TL ou Gdf) –>
      • transfert dans la colonne lemma_src (DMF par défaut)
    • l'étoile signifie la création de lemme –> “creation” dans la colonne lemma_src
    • certains mots composés peuvent être divisés en deux lemmes, comme on le fait pour les prépositions/déterminants (du, au, etc.) :
      • desanz → dès.ains
      • desabanz → dès.avant
      • nempero → non.pero
      • finimunz → fin.monde
    • les autres commentaires (e.g. ”?”) sont transférés dans la colonne “comment”
    • remplacer œ (autocorrection Excel) par oe
    • vérifier le formatage des virgules et des lemmes “vrai”, “faux” (peuvent être transformés par Excel)
    • vérifier si les virgules ne se sont pas transofrmées en “0”
    • lorsque la case lemma ou lemma_src est vide, il faut la remplir (15 cas sur passion)
    • trier par la colonne comment et vérifier les cas difficiles

voir https://groupes.renater.fr/wiki/palafra/public/palafra_lemmatisation_fro

public/lemmatisation_fro_journal.txt · Dernière modification: 2017/02/24 14:05 par alexei.lavrentev@ens-lyon.fr