Question 1

Unicode正規化とは何ですか？

Accepted Answer

Unicode正規化は、等価な文字シーケンスが同一に保存されるように、テキストを標準的な形式に変換するプロセスです。Unicode標準は4つの正規化形式を定義しています：NFC、NFD、NFKC、NFKD。これにより、文字がどのようにエンコードされたかに関わらず、テキストの比較、検索、保存の一貫性が確保されます。

Question 2

NFCとNFDの違いは何ですか？

Accepted Answer

NFC（正準合成）は、基底文字と結合マークを可能な場合に単一の合成済み文字に結合します。例えば、'e' + 結合アキュートアクセントは'é'になります。NFD（正準分解）はその逆で、合成済み文字を基底文字と結合マークに分解します。どちらの形式も正準等価であり、同じテキストを表現します。

Question 3

NFC/NFDの代わりにNFKCやNFKDを使うべきなのはいつですか？

Accepted Answer

視覚的に類似しているが意味的に異なる文字を共通の形式にマッピングする互換分解が必要な場合にNFKCまたはNFKDを使用します。例えば、合字'ﬁ'（fi）はNFKC/NFKDでは'fi'になります。これは検索インデックス、ユーザー名検証、セキュリティチェックに有用です。

Question 4

アプリケーションにはどの正規化形式を使うべきですか？

Accepted Answer

NFCが最も一般的に推奨される形式で、Web向けのW3C推奨でもあります。macOS HFS+のファイル名やほとんどのデータベースシステムのデフォルトでもあります。視覚的に類似した文字を同一として扱いたい検索・比較タスクにはNFKCを使用します。

Question 5

データは安全ですか？

Accepted Answer

はい。すべての正規化はJavaScriptの組み込みString.prototype.normalize()メソッドを使用してブラウザ内で完全に実行されます。テキスト、文字、その他のデータがサーバーに送信されることはありません。ブラウザの開発者ツールのネットワークタブで確認できます。

Question 6

正規化はテキストの見た目を変えますか？

Accepted Answer

NFCとNFDは見た目を変えません — 基になるコードポイント表現のみが変わります。NFKCとNFKDは互換文字を置き換えるため、見た目が変わる場合があります。例えば、上付き数字が通常の数字になったり、合字が個別の文字に分割されます。

Question 7

正規化は文字列比較にどう影響しますか？

Accepted Answer

正規化なしでは、視覚的に同一の2つの文字列がバイト単位の比較で等しくならない場合があります。両方の文字列を比較前に同じ形式に正規化することで、一貫した結果が保証されます。これはデータベース、検索エンジン、認証システムにとって重要です。

Unicode正規化ツール

このツールについて

使い方

Unicode正規化の人気の例

よくある質問

関連ツール

Unicode文字インスペクター

エンコーディング検出

テキストケース変換

文字列エスケープ/アンエスケープ