Was ist Unicode?
Unicode ist ein universeller Rechenstandard für die konsequente Kodierung, Darstellung und Bearbeitung von Texten in den meisten der weltweiten Schreibsysteme. In der Domain-Branche ermöglicht Unicode Internationalized Domain Names (IDNs) mit nicht lateinischen Zeichen wie Chinesisch, Arabisch, Cyrillic und anderen Skripten. Unicode gibt jedem Zeichen in allen Sprachen einen eindeutigen Codepunkt zu, der eine einheitliche Darstellung über verschiedene Systeme gewährleistet.Unicode in Domain Names
IDN Support
Unicode ermöglicht Domänen wie:
(japanisch)
(Arabisch)
- пример.рф (Russisch kyrillisch)
- z.B. folgendes:
Punycode Conversion
DNS verwendet ASCII, so Unicode-Domains in Punycode konvertieren:
Unicode: münchen.de
Punycode: xn--mnchen-3ya.de
Unicode: 北京.中国
Punycode: xn--1lq90i.xn--fiqs8s
Unicode Code Punkte
Struktur
Format: U+XXXX (hexadecimal)
Examples:
A = U+0041 (Latin A)
а = U+0430 (Cyrillic a)
中 = U+4E2D (Chinese character)
Charakter Blöcke
| Block | Reichweite | Script |
|---|---|---|
| Basic Latin | U+0000-007F | Englisch/ASCII |
| Cyrill | U+0400-04FF | Russisch, etc. |
| Arabisch | U+0600-06FF | Arabisch |
| CJK | U+4E00-9FFF | Chinesisch/Japanisch/Koreanisch |
Sicherheitsfragen
Homoglyph Attacks
Ähnlich aussehende Zeichen aus verschiedenen Skripten:
Latin 'a' (U+0061) vs Cyrillic 'а' (U+0430)
Latin 'o' (U+006F) vs Cyrillic 'о' (U+043E)
Attack: аpple.com (Cyrillic 'а') looks like apple.com
Browser Protections
Browser können Punycode für verdächtige Mischskript-Domains anzeigen.
Unicode Normalisierung
Verschiedene Möglichkeiten, denselben Charakter zu repräsentieren:
é = U+00E9 (precomposed)
é = U+0065 + U+0301 (decomposed: e + combining accent)
Normalization forms: NFC, NFD, NFKC, NFKD
Unicode ist grundlegend für die globale Internet-Zugangsmöglichkeit, sodass Nutzer weltweit Domainnamen in ihren nativen Skripten und Sprachen registrieren und zugreifen können.