Question 1

UTF-8エンコーディングとUnicode正規化

Accepted Answer

## UTF-8と正規化

UTF-8はUnicodeの可変長エンコーディングです。正規化は文字列のコードポイントを変更するため、UTF-8バイト表現に直接影響します。

### 正規化によるUTF-8バイトの変化

é（eとアキュートアクセント）の場合：

NFC（合成済み）: U+00E9 → 0xC3 0xA9（2バイト）
NFD（分解済み）: U+0065 → 0x65 + U+0301 → 0xCC 0x81（合計3バイト）

### ストレージへの影響

ダイアクリティカルマークの多い言語（フランス語、ベトナム語、ドイツ語）やCJK結合マーク（韓国語字母）では、NFDはストレージ要件を大幅に増加させる可能性があります。

### ベストプラクティス

UTF-8として保存・送信する前に、常にテキストをNFCに正規化します。バイトサイズを最小化し、最も広い範囲のシステムとの互換性を確保します。

Question 2

When is this useful?

Accepted Answer

ストレージ最適化、ネットワークプロトコル設計、データ交換フォーマットに取り組む開発者にとって重要です。正規化とエンコーディングの関係を理解することで、テキスト処理パイプラインとストレージ戦略について情報に基づいた判断が可能になります。

UTF-8エンコーディングとUnicode正規化

詳細な説明