Unicode

プロトコル & 標準
世界のほとんどの書記体系でテキストを一貫してエンコードおよび処理するためのコンピューティング標準。
← 用語集に戻る

Unicodeとは?

Unicodeは、世界のほとんどのライティングシステムにおけるテキストの一貫性のあるエンコーディング、表現、および処理のための普遍的なコンピューティング規格です。 ドメイン業界において、Unicode は中国語、アラビア語、Cyrillic、その他のスクリプトなどの非ラテン文字を含む国際化ドメイン名(IDN)を有効にします。 Unicodeは、すべての言語ですべての文字に固有のコードポイントを割り当て、異なるシステム間で一貫した表現を保証します。

ドメイン名のUnicode

##IDN サポート

Unicode は以下のようなドメインを有効にします。

##Punycode変換

DNS は ASCII を使用するので、Unicode ドメインは Punycode に変換します。

Unicode: münchen.de

Punycode: xn--mnchen-3ya.de

Unicode: 北京.中国

Punycode: xn--1lq90i.xn--fiqs8s

Unicode コード ポイント

構造

Format: U+XXXX (hexadecimal)

Examples:

A = U+0041 (Latin A)

а = U+0430 (Cyrillic a)

中 = U+4E2D (Chinese character)

キャラクターブロック

ブロックレンジスクリプト
ベーシック ラテンU+0000-007Fの特長英語/ASCII
シリリックU+0400-04FFの特長ロシアなど
ログインU+0600-06FFの特長ログイン
CJKについてU+4E00-9FFFの特長中国/日本/韓国

セキュリティ関連

##ホモグリフ攻撃

異なるスクリプトから類似する文字:

Latin 'a' (U+0061) vs Cyrillic 'а' (U+0430)

Latin 'o' (U+006F) vs Cyrillic 'о' (U+043E)

Attack: аpple.com (Cyrillic 'а') looks like apple.com

##ブラウザ保護

ブラウザは、疑わしい混合スクリプトドメインのPunycodeを表示することができます。

Unicode 正規化

同じ文字を表す異なる方法:

é = U+00E9 (precomposed)

é = U+0065 + U+0301 (decomposed: e + combining accent)

Normalization forms: NFC, NFD, NFKC, NFKD

Unicodeは、グローバル・インターネット・アクセシビリティの根本的であり、世界中のユーザーがネイティブ・スクリプトや言語でドメイン名を登録し、アクセスできるようにします。

この知識を実践する

DomScan の API を使用してドメインの可用性、状態などを確認します。