Wat is Unicode?
Unicode is een universele computerstandaard voor consistente codering, representatie en verwerking van tekst in de meeste schrijfsystemen ter wereld. In de domeinindustrie maakt Unicode Internationalized Domain Names (IDNs) mogelijk met niet-Latijnse tekens zoals Chinees, Arabisch, Cyrillisch en andere scripts. Unicode kent een uniek codepunt toe aan elk teken in alle talen en zorgt voor consistente representatie in verschillende systemen.Unicode in domeinnamen
IDN-ondersteuning
Unicode maakt domeinen als:
- Ja.
- Ja.
- пример.рф (Russisch Cyrillisch)
- Ja.
Punycode conversie
DNS maakt gebruik van ASCII, dus Unicode domeinen converteren naar Punycode:
Unicode: münchen.de
Punycode: xn--mnchen-3ya.de
Unicode: 北京.中国
Punycode: xn--1lq90i.xn--fiqs8s
Unicode-codepunten
Structuur
Format: U+XXXX (hexadecimal)
Examples:
A = U+0041 (Latin A)
а = U+0430 (Cyrillic a)
中 = U+4E2D (Chinese character)
Karakterblokken
| Blok | Bereik | Script |
|---|---|---|
| Latijn | U+0000-007F | Engels/ASCII |
| Cyrillisch | U+0400-04FF | Russisch, enz. |
| Arabisch | U+0600-06FF | Arabisch |
| CJK | U+4E00-9FFF | Chinees/Japans/Koreaans |
Veiligheidsproblemen
Homoglyph valt aan
Soortgelijke tekens uit verschillende scripts:
Latin 'a' (U+0061) vs Cyrillic 'а' (U+0430)
Latin 'o' (U+006F) vs Cyrillic 'о' (U+043E)
Attack: аpple.com (Cyrillic 'а') looks like apple.com
Browserbeveiliging
Browsers kunnen tonen Punycode voor verdachte gemengde-script domeinen.
Unicodenormalisatie
Verschillende manieren om hetzelfde karakter te vertegenwoordigen:
é = U+00E9 (precomposed)
é = U+0065 + U+0301 (decomposed: e + combining accent)
Normalization forms: NFC, NFD, NFKC, NFKD
Unicode is van fundamenteel belang voor wereldwijde internettoegankelijkheid, waardoor gebruikers wereldwijd domeinnamen kunnen registreren en benaderen in hun eigen scripts en talen.