Outils pour utilisateurs

Outils du site


public:spec_characters

Ceci est une ancienne révision du document !


Gestion des caractères Unicode

Certains composants XML de Java ne gèrent nativement que le premier plan principal Unicode, un ticket rend compte de la situation : http://forge.cbp.ens-lyon.fr/redmine/issues/1313.

Plutôt que d'abandonner un texte contenant des caractères situés en dehors du premier plan, une première stratégie consiste à remplacer ces caractères par un caractère équivalent acceptable indiquant un problème non traité et à continuer le traitement.

Algorithme :

  • ouvrir le flux XML
  • déterminer l'encodage des caractères
  • ré-ouvrir le flux en caractères avec l'encodage en question
  • pour chaque caractère situé hors du premier plan
    • déterminer la classe Unicode du caractère
    • remplacer le caractère par un caractère du premier plan de classe équivalente et montrant (par sa forme visuelle usuelle) qu'il y a un problème
  • ré-ouvrir le flux XML
  • faire le traitement XML

Caractères candidats :
a⍉b

a⏀b

a⎅b A⎅B

a◫b A◫B

a☒b A☒B

a⮽b A⮽B

a🗷b A🗷B

a🗵b A🗵B

a⌧b A⌧B

a⧇b

a⌼b

a⛞b

a⦚b

public/spec_characters.1498135857.txt.gz · Dernière modification: 2017/06/22 14:50 par slh@ens-lyon.fr