Question 1

ラテン拡張文字とマルチバイトUTF-8

Accepted Answer

## ASCII以上：ラテン拡張文字

é、ü、ñ、ç、åなどの文字はヨーロッパの言語で一般的です。見た目は単一の文字ですが、エンコーディングの詳細はASCIIとの重要な違いを明らかにします。

### 例の文字列

café naïve résumé

### 長さの測定結果

| メトリック | 値 |
|-----------|---|
| JavaScript .length | 17 |
| コードポイント数 | 17 |
| 書記素クラスター数 | 17 |
| UTF-8バイト数 | 21 |
| UTF-16バイト数 | 34 |
| UTF-32バイト数 | 68 |

### UTF-8バイト数が異なる理由

Latin-1 Supplement範囲（U+0080からU+00FF）の文字はUTF-8で1バイトではなく2バイトを必要とします。文字列"café naïve résumé"には4つのアクセント付き文字（é、ï、é、é）があり、それぞれ2バイトのUTF-8コストがかかります。残りの13のASCII文字は各1バイトです。合計：13 + (4 × 2) =

Question 2

When is this useful?

Accepted Answer

ヨーロッパ市場（フランス語、ドイツ語、スペイン語、ポルトガル語）向けのアプリケーションを構築する際、アクセント付き文字がUTF-8で2バイト使用することを理解することは、正確なストレージ推定とVARCHAR制限計算に不可欠です。

ラテン拡張文字とマルチバイトUTF-8

詳細な説明

ASCII以上：ラテン拡張文字

例の文字列

長さの測定結果

UTF-8バイト数が異なる理由

合成済み形式 vs 分解済み形式

データベースへの影響

ユースケース

試してみる — String Length Calculator

関連トピック

メトリック	値
JavaScript `.length`	17
コードポイント数	17
書記素クラスター数	17
UTF-8バイト数	21
UTF-16バイト数	34
UTF-32バイト数	68