Liste de liens :
Liste de liens :
Ceci est une ancienne révision du document !
Améliorer l'annotation lexicale automatique.
Cela concerne :
Description de la méthode de travail pour atteindre l'objectif
Pascal Denis & Benoît Sagot, (Coupling an annotated corpus and a morphosyntactic lexicon for state-of-the-art POS tagging with less human effort. In Proceedings of PACLIC 2009, Hong Kong, China). http://pauillac.inria.fr/~pdenis/papers/paclic09.pdf
Helmut Schmid and Florian Laws: "Estimation of Conditional Probabilities with Decision Trees and an Application to Fine-Grained POS Tagging" [[http://www.cis.uni-muenchen.de/~schmid/papers/Schmid-Laws.pdf]]
de TreeTagger vers Multext et assistance à la correction de lemmes : http://www.ims.uni-stuttgart.de/institut/mitarbeiter/gojunaa [voir le lien “Ressourcen” / “Lemma-Korrektur”]
http://nlp.stanford.edu/downloads/tagger.shtml
Cette technologie est distribuée avec un modèle Arabe appelé 'arabic.tagger'. Il a été construit à partir de l'intégralité de l'Arabic TreeBank parties 1 à 3.
Performances : When trained on the train part of the ATB p1-3 split done for the 2005 JHU Summer Workshop (Diab split), using (augmented) Bies tags, it gets the following performance:
Corpus d'apprentissage : Arabic TreeBank parties 1 à 3 :
Tokenization
Le format précis du texte arabe en entrée n'est pas indiqué, mais j'ai trouvé ce mail de Christopher Manning dans java-nlp-user : “everything that appears on the Stanford Arabic Parser IAQ page also applies to the POS tagger (required tokenization, normalization, POS tag set used, etc.)”. Ce mail contient un fichier texte exemple en Arabe et le fichier résultat du tagger.
On trouve donc beaucoup plus de détails dans la documentation de l'autre outil apparenté, l'analyseur syntaxique de Stanford :
Résultat :
Jeu d'étiquettes
Voir http://www.ircs.upenn.edu/arabic/Jan03release/arabic-POStags-collapse-to-PennPOStags.txt
Autres références à regarder
AraMorph est un implémentation Java open-source de l'algorithme Buckwalter.
Il tokenise et propose toutes les analyses de décomposition en préfixe-racine-suffixe.
Il gère l'UTF-8.
Il comprend des classes d'intégration dans Lucene pour l'analyse, l'indexation et l'interrogation.
Il y a un lemmatiseur en ligne http://oracc.museum.upenn.edu/util/atfproc.html.
Du projet http://oracc.museum.upenn.edu qui comprend les langues :
Autres ressources à exploiter
http://nlp.stanford.edu/downloads/tagger.shtml
Cette technologie est distribuée avec deux modèles pour le Chinois appelés 'chinese-distsim.tagger' et 'chinese-nodistsim.tagger'.
Ils utilisent le jeu d'étiquettes de la Penn Chinese Treebank.
Performances
Le segmenteur et le tagger pour le chinois sont téléchargeable ici.
Note: one bad report on this one.
Sans différentier le latin classique du néo-latin.
http://nlp.stanford.edu/software/segmenter.shtml#Download
http://nlp.stanford.edu/downloads/tagger.shtml
packages utiles :
2 Macros :
StanfordSegmenter
Il faut copier :
Lien de téléchargement des modèles (250Mo) : http://nlp.stanford.edu/software/stanford-segmenter-2014-01-04.zip
Paramètres de la macro :
StanfordTagger
Il faut copier
Lien de download des modèles (110Mo) : http://nlp.stanford.edu/downloads/stanford-postagger-full-2014-01-04.zip
Paramètres de la macro :
TreeTagger a été interfacé pour les modules d'import.
Une extension TreeTagger permet d'apprendre et de projeter sur un corpus TXM.