Unicodeとは?
Unicodeは、世界のほとんどのライティングシステムにおけるテキストの一貫性のあるエンコーディング、表現、および処理のための普遍的なコンピューティング規格です。 ドメイン業界において、Unicode は中国語、アラビア語、Cyrillic、その他のスクリプトなどの非ラテン文字を含む国際化ドメイン名(IDN)を有効にします。 Unicodeは、すべての言語ですべての文字に固有のコードポイントを割り当て、異なるシステム間で一貫した表現を保証します。ドメイン名のUnicode
##IDN サポート
Unicode は以下のようなドメインを有効にします。
- 例え.jp
- م م م م م م م
- пример.рф (ロシアサイリル)
- 例子。(中国語)
##Punycode変換
DNS は ASCII を使用するので、Unicode ドメインは Punycode に変換します。
Unicode: münchen.de
Punycode: xn--mnchen-3ya.de
Unicode: 北京.中国
Punycode: xn--1lq90i.xn--fiqs8s
Unicode コード ポイント
構造
Format: U+XXXX (hexadecimal)
Examples:
A = U+0041 (Latin A)
а = U+0430 (Cyrillic a)
中 = U+4E2D (Chinese character)
キャラクターブロック
| ブロック | レンジ | スクリプト |
|---|---|---|
| ベーシック ラテン | U+0000-007Fの特長 | 英語/ASCII |
| シリリック | U+0400-04FFの特長 | ロシアなど |
| ログイン | U+0600-06FFの特長 | ログイン |
| CJKについて | U+4E00-9FFFの特長 | 中国/日本/韓国 |
セキュリティ関連
##ホモグリフ攻撃
異なるスクリプトから類似する文字:
Latin 'a' (U+0061) vs Cyrillic 'а' (U+0430)
Latin 'o' (U+006F) vs Cyrillic 'о' (U+043E)
Attack: аpple.com (Cyrillic 'а') looks like apple.com
##ブラウザ保護
ブラウザは、疑わしい混合スクリプトドメインのPunycodeを表示することができます。
Unicode 正規化
同じ文字を表す異なる方法:
é = U+00E9 (precomposed)
é = U+0065 + U+0301 (decomposed: e + combining accent)
Normalization forms: NFC, NFD, NFKC, NFKD
Unicodeは、グローバル・インターネット・アクセシビリティの根本的であり、世界中のユーザーがネイティブ・スクリプトや言語でドメイン名を登録し、アクセスできるようにします。