Liste de liens :
Liste de liens :
Améliorer la prise en charge de la langue des corpus par la plateforme.
L'adoption d'Unicode pour la représentation des caractères ouvre la voie à la prise en charge de nombreuses langues et systèmes d'écriture.
Cela a un impact sur les possibilités :
Enfin, il y aura toujours des langues et systèmes d'écriture à prendre en charge en dehors d'Unicode :
Description de la méthode de travail pour atteindre l'objectif
[Voir également le composants de tokenisation.]
En texte brut, la tokenization utilise les classes Unicode en différenciant les espaces des ponctuations faibles ou fortes.
Pour le chinois (ZH) ou l'arabe (AR), entre autres, cela ne suffit pas.
En chinois, à défaut de segmenter au niveau des mots, il est intéressant de segmenter systématiquement au niveau des idéogrammes (caractères Unicode) :
Pour le tibétain (BO), il peut-être intéressant de donner un rôle d'espace à un rôle initial de type virgule (caractère) pour faciliter les recherches plein texte, tout en maintenant l'affichage du caractère dans l'édition (ou pas).
Il s'agit du caractère TSHEG :
U+0F0B TIBETAN MARK INTERSYLLABIC TSHEG http://codepoints.net/U+0F0B Unicode class: 'Other Punctuation' of name 'Po'.
Pour un corpus Akkadien, comme cela pourrait être fait pour tout système d'écriture alphabétique, il a été intéressant de développer une double-stratégie de tokenization : niveau mots ou niveau syllabes.
Technologies :