Qu'est-ce qu'Unicode?
Unicode est un standard de calcul universel pour l'encodage, la représentation et le traitement cohérent du texte dans la plupart des systèmes d'écriture du monde. Dans l'industrie du domaine, Unicode permet les noms de domaine internationalisés (IDN) contenant des caractères non latins tels que chinois, arabe, cyrillique, et d'autres scripts. Unicode attribue un point de code unique à chaque caractère dans toutes les langues, assurant une représentation cohérente entre les différents systèmes.Unicode dans les noms de domaine
Soutien de l'IDN
Unicode permet des domaines comme:
- Jp (Japonais)
- مسال.مسر (arabe)
(chinois)
Conversion du code de puny
DNS utilise ASCII, donc les domaines Unicode se convertissent en Punycode:
Unicode: münchen.de
Punycode: xn--mnchen-3ya.de
Unicode: 北京.中国
Punycode: xn--1lq90i.xn--fiqs8s
Points de code Unicode
Structure
Format: U+XXXX (hexadecimal)
Examples:
A = U+0041 (Latin A)
а = U+0430 (Cyrillic a)
中 = U+4E2D (Chinese character)
Blocs de caractères
| Bloc | Portée | Scénario |
|---|---|---|
| Latin de base | U+0000-007F | Anglais/ASCII |
| Cyrillique | U+0400-04FF | Russe, etc. |
| Arabe | U+0600-06FF | Arabe |
| CJK | UF+4E00-9FFF | Chinois/japonais/coréen |
Problèmes de sécurité
Attaques d'homoglyphes
Des personnages semblables de différents scripts :
Latin 'a' (U+0061) vs Cyrillic 'а' (U+0430)
Latin 'o' (U+006F) vs Cyrillic 'о' (U+043E)
Attack: аpple.com (Cyrillic 'а') looks like apple.com
Protections du navigateur
Les navigateurs peuvent afficher Punycode pour les domaines suspects de texte mixte.
Normalisation Unicode
Différentes façons de représenter le même caractère :
é = U+00E9 (precomposed)
é = U+0065 + U+0301 (decomposed: e + combining accent)
Normalization forms: NFC, NFD, NFKC, NFKD
Unicode est fondamental pour l'accessibilité mondiale à Internet, permettant aux utilisateurs du monde entier d'enregistrer et d'accéder aux noms de domaine dans leurs scripts et langues natifs.