Des équivalences normalisées

Table ASCII

ASCII

Pour cet exemple, nous avons pris des correspondances alphanumériques arbitraires, mais il existe une correspondance normalisée pour les octets de 8 bits, appelé code ASCII Etendu (par rapport à l'ASCII simple, utilisant seulement 7 bits) datant de 1981. Les octets de 8 bits du code ASCII Etendu permettent 256 combinaisons, donc 256 caractères.

La table ASCII ci-contre ne représente que la part ASCII simple, même si elle utilise des octets de 8 bits.

UNICODE

Cependant, le code ASCII Etendu, ne permettant de représenter que 256 caractères, il a atteint ses limites avec la nécessité de représenter les alphabets non latins, les symboles mathématiques... C'est ainsi qu'est naît UNICODE en 1991. Cette fois-ci, le code repose sur des octets des 16 bits, ce qui permet 65536 combinaisons possibles. Mais en utilisant le codage de Huffmann, on obtient plus d'un million de caractères codables différents. Le codage de Huffmann repose sur une différence de longueur de code pour les caractères. Les caractères les plus fréquents sont codés sur moins de bits ce qui entraîne une économie de place.

Voici comment fonctionne le codage de Huffmann :

Imaginons que nous avons un texte contenant le pourcentage de lettres suivant :

80 % de E

6 % de A

6 % de B

4 % de J

4 % de I

On rassemble les plus faibles jusqu'à obtenir 100%

E	80 %			100 %
A	6 %	12 %	20 %
B	6 %	12 %
I	4 %	8 %
J	4 %	8 %

J:111

I:110

B:101

A:100

E:0

Le codage de Huffmann est optimal et UNICODE couvre ainsi 93 écritures.