Question 1

ラテンアクセント文字 — Unicodeのダイアクリティカルマーク

Accepted Answer

## Unicodeのラテンアクセント文字

アクセント付きラテン文字（例：é、à、ü、ñ、ç）は、西洋言語で最も一般的な非ASCII文字です。Unicodeは同じ文字を2つの方法で表現でき、柔軟性と複雑さの両方を生み出しています。

### 合成済みvs.結合形式

Unicodeは同じ視覚的な文字に2つの表現を提供します：

合成済み（NFC）：
- é = U+00E9（LATIN SMALL LETTER E WITH ACUTE）— 単一コードポイント、2 UTF-8バイト

結合（NFD）：
- é = U+0065 + U+0301（LATIN SMALL LETTER E + COMBINING ACUTE ACCENT）— 2コードポイント、3 UTF-8バイト

両方とも同じように表示されますが、バイト表現、文字列長、比較動作が異なります。

### Latin-1 Supplementブロック

西ヨーロッパ言語の合成済みアクセント文字はLatin-1 Supplementブロック（U+0080–U+00FF）を占めます。これらはすべてUTF-8で正確に2バイト

Question 2

When is this useful?

Accepted Answer

多言語アプリケーションでのアクセントテキストのエンコーディング問題のデバッグ、ダイアクリティカルマーク付きテキストで文字列比較が失敗する理由の理解、異なる文字エンコーディングを持つシステムからインポートされたデータの文字化け診断、データベースのNFCとNFD正規化の選択に使用します。

ラテンアクセント文字 — Unicodeのダイアクリティカルマーク

詳細な説明