ひらがなとカタカナ — UnicodeにおけるB日本語音節文字
日本語のひらがな(U+3040–U+309F)とカタカナ(U+30A0–U+30FF)のUnicodeエンコーディングを探ります。コードポイント、3バイトUTF-8表現、使用パターンを解説します。
CJK Characters
詳細な説明
UnicodeにおけるひらがなとカタカナB
日本語は漢字(CJK統合漢字)と並んで、2つの音節文字を使用します:固有の日本語の単語と文法要素に使用されるひらがなと、外来語、強調、専門用語に使用されるカタカナです。
Unicodeブロック
| 文字種 | 範囲 | 文字数 |
|---|---|---|
| ひらがな | U+3040–U+309F | 93文字 |
| カタカナ | U+30A0–U+30FF | 96文字 |
| カタカナ拡張 | U+31F0–U+31FF | 16文字 |
コードポイントの例
| ひらがな | コードポイント | カタカナ | コードポイント |
|---|---|---|---|
| あ (a) | U+3042 | ア (a) | U+30A2 |
| い (i) | U+3044 | イ (i) | U+30A4 |
| う (u) | U+3046 | ウ (u) | U+30A6 |
| え (e) | U+3048 | エ (e) | U+30A8 |
| お (o) | U+304A | オ (o) | U+30AA |
UTF-8エンコーディング
ひらがなとカタカナの文字はどちらもBMPに属し、UTF-8で3バイトを使用します:
- あ(ひらがな ア)→ UTF-8:
E3 81 82 - ア(カタカナ ア)→ UTF-8:
E3 82 A2
対応するひらがなとカタカナ文字のオフセットは正確に0x0060(10進数で96)です。この一貫したオフセットにより、コードポイントに0x60を加算または減算するだけの簡単なスクリプト変換が可能です。
半角カタカナ
レガシーの日本語コンピューティングでは半角カタカナ(U+FF65–U+FF9F)を使用しており、視覚的には狭いにもかかわらずUTF-8で3バイトを占めます。現代のシステムでは全角形式が推奨されていますが、半角バリアントはレガシーデータや固定幅表示に依然として現れます。
ユースケース
日本語テキスト処理システムの構築、ひらがな→カタカナ変換の実装、特定の日本語スクリプトのみを受け付ける入力フィールドの検証、日本語テキストデータのエンコーディング問題のデバッグに使用します。