Question 1

CJK文字の長さ：中国語、日本語、韓国語テキスト

Accepted Answer

## CJK文字：UTF-8で3バイト

中国語、日本語（漢字/ひらがな/カタカナ）、韓国語（ハングル）の文字はUnicode範囲U+4E00–U+9FFF（CJK統合漢字）および関連ブロックを占めます。これらの文字はUTF-8で各3バイトを必要とします。

### 例の文字列

東京都渋谷区 (Tokyo Shibuya-ku)

### 長さの測定結果

| メトリック | 値 |
|-----------|---|
| JavaScript .length | 5 |
| コードポイント数 | 5 |
| 書記素クラスター数 | 5 |
| UTF-8バイト数 | 15 |
| UTF-16バイト数 | 10 |
| UTF-32バイト数 | 20 |

### CJKにおけるUTF-8 vs UTF-16

これはUTF-16がUTF-8よりコンパクトになる珍しいケースの1つです。各CJK文字はUTF-8で3バイトですが、UTF-16では2バイトです。主にCJKのテキストの場合、UTF-16はUTF-8と比較して約33%のストレージを節約します。

ただし、Webコンテンツ

Question 2

When is this useful?

Accepted Answer

アジア市場向けアプリケーションの構築や多言語コンテンツの処理において、CJK文字が各3 UTF-8バイトを使用することを知ることは、正確なストレージ計画、APIペイロードサイズの推定、データベースカラムのサイジングに不可欠です。

CJK文字の長さ：中国語、日本語、韓国語テキスト

詳細な説明

CJK文字：UTF-8で3バイト

例の文字列

長さの測定結果

CJKにおけるUTF-8 vs UTF-16

日本語の混合テキスト

データベースの考慮事項

ユースケース

試してみる — String Length Calculator

関連トピック

メトリック	値
JavaScript `.length`	5
コードポイント数	5
書記素クラスター数	5
UTF-8バイト数	15
UTF-16バイト数	10
UTF-32バイト数	20