Question 1

結合文字とダイアクリティカルマーク

Accepted Answer

## 結合文字：複数のコードポイント、1つの視覚的文字

Unicodeでは、基本文字に1つ以上の結合マークを追加して文字を構成できます。結果は単一の文字に見えますが、複数のコードポイントで構成されています。

### 例：éの2つの方法

合成済み（NFC）：

é  →  U+00E9 (1コードポイント、2 UTF-8バイト)

分解済み（NFD）：

é  →  U+0065 + U+0301 (2コードポイント、3 UTF-8バイト)

両方ともéと同じように表示されますが：

| メトリック | 合成済み | 分解済み |
|-----------|---------|---------|
| .length | 1 | 2 |
| コードポイント数 | 1 | 2 |
| 書記素クラスター数 | 1 | 1 |
| UTF-8バイト数 | 2 | 3 |

### 重なった結合マーク

単一の基本文字に複数の結合マークを重ねることができます：

à́̂  →  a + グレーブ + アキュート + サーカムフレックス

これは4つのコードポイントから1つの書記素ク

Question 2

When is this useful?

Accepted Answer

国際的なテキストを扱うテキストエディタ、入力バリデータ、検索機能を構築する際、結合文字を理解することで、壊れた切り詰め、不整合な検索結果、ユーザー向け制限の不正確な文字カウントなどのバグを防止できます。

結合文字とダイアクリティカルマーク

詳細な説明