Question 1

書記素クラスター vs コードポイント：詳細な比較

Accepted Answer

## 書記素クラスター vs コードポイント

書記素クラスターとコードポイントの違いを理解することは、どのプログラミング言語でも正しい文字列処理の基本です。

### 定義

- コードポイント：Unicode標準の単一エントリ（例：U+0041 = "A"）。Unicodeの原子的な単位。
- 書記素クラスター：人間が単一の「文字」として認識するもの。1つ以上のコードポイントで構成される場合があります。

### 異なる場合

| テキスト | 書記素 | コードポイント | 比率 |
|---------|--------|-------------|------|
| ABC | 3 | 3 | 1:1 |
| é（合成済み） | 1 | 1 | 1:1 |
| é（分解済み） | 1 | 2 | 1:2 |
| 🇯🇵（国旗） | 1 | 2 | 1:2 |
| 👋🏾（スキントーン） | 1 | 2 | 1:2 |
| 👨‍👩‍👧‍👦（家族） | 1 | 7 | 1:7 |

### Intl.Segmenter API

モダンブラウザは正しい書記素セグメンテ

Question 2

When is this useful?

Accepted Answer

文字制限付きのテキスト入力フィールドの実装、「残りN文字」カウンターの表示、またはプレビュー用の文字列切り詰めにおいて、コードポイント数の代わりに書記素クラスター数を使用することで、カウントがユーザーが視覚的に認識するものと一致するようになります。

ユースケース	推奨メトリック
ユーザー向け文字カウンター	書記素クラスター
データベースVARCHAR(n)	DBに依存（通常はコードポイント）
UTF-8ストレージ計算	UTF-8バイト数
APIペイロードサイズ	UTF-8バイト数
表示用文字列切り詰め	書記素クラスター

書記素クラスター vs コードポイント：詳細な比較

詳細な説明

書記素クラスター vs コードポイント

定義

異なる場合

Intl.Segmenter API

スプレッド演算子との比較

どちらを使うべきか？

経験則

ユースケース

試してみる — String Length Calculator

関連トピック

テキスト	書記素	コードポイント	比率
ABC	3	3	1:1
é（合成済み）	1	1	1:1
é（分解済み）	1	2	1:2
🇯🇵（国旗）	1	2	1:2
👋🏾（スキントーン）	1	2	1:2
👨‍👩‍👧‍👦（家族）	1	7	1:7