Question 1

基本ラテンアルファベット — UnicodeのA〜Z

Accepted Answer

## Unicodeにおける基本ラテンアルファベット

ラテン大文字A〜ZはコードポイントU+0041〜U+005A、対応する小文字a〜zはU+0061〜U+007Aを占めます。これら52文字は基本ラテンUnicodeブロック（U+0000〜U+007F）の中核を形成し、ASCII標準と完全に一致します。

### コードポイントの構造

大文字と小文字の範囲はコードポイント値で正確に32（0x20）離れています：

A = U+0041 (65 decimal)    a = U+0061 (97 decimal)
B = U+0042 (66 decimal)    b = U+0062 (98 decimal)
...
Z = U+005A (90 decimal)    z = U+007A (122 decimal)

この0x20のオフセットは、ビット演算で大文字小文字変換を容易にするASCIからの意図的な設計選択です。ビット5を切り替えるだけで大文字と小文字が切り替わります。

### UTF-8エンコーディング

すべての基本ラテン文字はUTF-8で1バイトとしてエ

Question 2

When is this useful?

Accepted Answer

文字検証ロジックの構築、大文字小文字を区別しない比較の実装、特定の文字列操作が基本ラテンと拡張ラテン文字で異なる動作をする理由の理解に使用します。

基本ラテンアルファベット — UnicodeのA〜Z

詳細な説明

Unicodeにおける基本ラテンアルファベット

コードポイントの構造

UTF-8エンコーディング

基本ラテンを超えて

全角ラテン文字

ユースケース

試してみる — Unicode Inspector

関連トピック