Che cos'è Unicode?
Unicode è uno standard informatico universale per la codifica coerente, la rappresentazione e la gestione del testo nella maggior parte dei sistemi di scrittura del mondo. Nell'industria dei domini, Unicode abilita i nomi di dominio internazionalizzati (IDN) contenenti caratteri non latini come cinese, arabo, cirillico e altri script. Unicode assegna un punto di codice univoco a ogni carattere in tutte le lingue, garantendo una rappresentazione coerente su diversi sistemi.Unicode nei nomi di dominio
Supporto IDN
Unicode abilita domini come:
- 例え.jp (Giapponese)
- مثال.مصر (Arabo)
- пример.рф (Cirillico russo)
- 例子.中国 (Cinese)
Conversione Punycode
Il DNS usa ASCII, quindi i domini Unicode si convertono in Punycode:
Unicode: münchen.de
Punycode: xn--mnchen-3ya.de
Unicode: 北京.中国
Punycode: xn--1lq90i.xn--fiqs8s
Punti di codice Unicode
Struttura
Formato: U+XXXX (esadecimale)
Esempi:
A = U+0041 (Latino A)
а = U+0430 (Cirillico a)
中 = U+4E2D (Carattere cinese)
Blocchi di caratteri
| Blocco | Gamma | Script |
|---|---|---|
| Latino di base | U+0000-007F | Inglese/ASCII |
| Cirillico | U+0400-04FF | Russo, ecc. |
| Arabo | U+0600-06FF | Arabo |
| CJK | U+4E00-9FFF | Cinese/Giapponese/Coreano |
Preoccupazioni per la sicurezza
Attacchi Homoglyph
Caratteri simili da diversi script:
Latino 'a' (U+0061) vs Cirillico 'а' (U+0430)
Latino 'o' (U+006F) vs Cirillico 'о' (U+043E)
Attacco: аpple.com (Cirillico 'а') sembra apple.com
Protezioni dei browser
I browser potrebbero visualizzare Punycode per domini sospetti a script misto.
Normalizzazione Unicode
Diversi modi per rappresentare lo stesso carattere:
é = U+00E9 (precomposto)
é = U+0065 + U+0301 (decomposto: e + accento combinato)
Forme di normalizzazione: NFC, NFD, NFKC, NFKD
Unicode è fondamentale per l'accessibilità Internet globale, abilitando gli utenti in tutto il mondo a registrare e accedere ai nomi di dominio nei loro script e lingue nativi.