Outils pour utilisateurs

Outils du site


public:spec_characters

Ceci est une ancienne révision du document !


Gestion des caractères Unicode

Certains composants XML de Java ne gèrent nativement que le premier plan principal Unicode, un ticket rend compte de la situation : http://forge.cbp.ens-lyon.fr/redmine/issues/1313.

Plutôt que d'abandonner un texte contenant des caractères situés en dehors du premier plan, une première stratégie consiste à remplacer ces caractères par un caractère équivalent acceptable indiquant un problème non traité et à continuer le traitement.

Algorithme

  • ouvrir le flux XML
  • déterminer l'encodage des caractères
  • ré-ouvrir le flux en caractères avec l'encodage en question
  • pour chaque caractère situé hors du premier plan
    • déterminer la classe Unicode du caractère
    • remplacer le caractère par un caractère du premier plan de classe équivalente et montrant (par sa forme visuelle usuelle) qu'il y a un problème
  • ré-ouvrir le flux XML
  • faire le traitement XML

Caractères candidats

a⍉b

  • BP : problème de l'interprétation “ensemble vide” qui ne convient pas bien.

a⏀b

a⎅b A⎅B

a◫b A◫B

a☒b A☒B

  • BP : ajouter à la liste des candidats un petit carré blanc, comme une case non cochée ? Visuellement ce serait moins lourd que les autres carrés. Sinon dans la série qui suit, les carrés avec 4 mini-caractères sont assez parlants (et moins encombrants que ceux à 6 mini-caractères).

a⮽b A⮽B

a🗷b A🗷B

a🗵b A🗵B

a⌧b A⌧B

a⧇b

a⌼b

a⛞b

a⦚b

public/spec_characters.1498210606.txt.gz · Dernière modification: 2017/06/23 11:36 par benedicte.pincemin@ens-lyon.fr