Outils pour utilisateurs

Outils du site


public:corpusrecode_command

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
public:corpusrecode_command [2016/07/22 17:43]
alexei.lavrentev@ens-lyon.fr créée
public:corpusrecode_command [2016/07/25 15:44] (Version actuelle)
alexei.lavrentev@ens-lyon.fr
Ligne 1: Ligne 1:
-====== Commande gestionnaire de propriété ​de mot de corpus ======+====== Commande gestionnaire de propriétés ​de mot de corpus ​- recode ​======
  
 ===== Objectif ===== ===== Objectif =====
  
-Pouvoir recoder des propriétés de mots+Pouvoir recoder des propriétés de mots.
  
  
 ===== Solution ===== ===== Solution =====
  
-Mettre ​à jour les fichiers XML-TXM du corpus et mettre à jour le corpus avec le module d'import ​XTZ.+Utiliser le mécanisme de ré-import mis en place avec le module d'​import XTZ pour la sauvegarde des annotations 
 +(il s'agit de mettre ​à jour les fichiers XML-TXM du corpus ​puis de reconstruire ses index et éditions de façon optimisée). Cette fonctionnalité ne fonctionne donc pour l'instant que pour les corpus XML importés par XTZ.
  
 Paramètres : Paramètres :
-  * un corpus (sélectioné ​dans la vue Corpus) +  * un corpus (sélectionné ​dans la vue Corpus) 
-  * propriété source +  * nom de la propriété source, désignée par le paramètre '​source/​FR:​source'​ 
-  * propriété ciblepeut être la propriété source si on souhaite la remplacer +  * nom de la propriété cible (peut être le nom de la propriété source si on souhaite la remplacer), désignée par le paramètre '​target/​FR:​cible'​ 
-  * fichier de conversion+  * paramètre '​unknownHandling/​FR:​gestionInconnus'​ à la valeur '​abandon,​ '​copier'​ ou '​supprimer'​ 
 +  * fichier de conversion ​(.tsv)
     * fichier tabulé     * fichier tabulé
     * une règle par ligne     * une règle par ligne
-    ​* première colonne : pattern regexp +      ​* première colonne : pattern regexp 
-    2e colonne ​ : valeur de remplacement +      deuxième ​colonne ​ : valeur de remplacement 
-    * les conversions sont appliquées dans l'​ordre d'​apparition du fichier +    * les conversions sont appliquées dans l'​ordre d'​apparition du fichier ​de conversion 
-      * si une règle matche, on passe au mot suivant+      ​* seule la première règle qui matche est déclenchée 
 +    * il y a trois stratégies de conversion différentes,​ choisies par le paramètre '​unknownHandling/​FR:​gestionInconnus'​ : 
 +    ​* si aucune règle ne matche et gestionInconnus == '​abandon'​ 
 +      * écrire dans propriété cible : ERREUR(valeur de propriété source) 
 +      * afficher les 10 premières erreurs différentes dans la console 
 +      * afficher à la fin du traitement un message indiquant le nombre total de mots ayant eu une propriété source de valeur inconnue et le nombre total de valeurs inconnues différentes 
 +    * si aucune ​règle ​ne matche ​et gestionInconnus == '​copier'​ 
 +      * copier dans propriété cible la valeur de la propriété source 
 +    * si aucune règle ne matche et gestionInconnus == '​supprimer'​ 
 +      * écrire dans propriété cible le code prévu pour %%__UNDEF__%% 
public/corpusrecode_command.1469202196.txt.gz · Dernière modification: 2016/07/22 17:43 par alexei.lavrentev@ens-lyon.fr