ひらがなとカタカナ — UnicodeにおけるB日本語音節文字

日本語のひらがな(U+3040–U+309F)とカタカナ(U+30A0–U+30FF)のUnicodeエンコーディングを探ります。コードポイント、3バイトUTF-8表現、使用パターンを解説します。

CJK Characters

詳細な説明

UnicodeにおけるひらがなとカタカナB

日本語は漢字(CJK統合漢字)と並んで、2つの音節文字を使用します:固有の日本語の単語と文法要素に使用されるひらがなと、外来語、強調、専門用語に使用されるカタカナです。

Unicodeブロック

文字種 範囲 文字数
ひらがな U+3040–U+309F 93文字
カタカナ U+30A0–U+30FF 96文字
カタカナ拡張 U+31F0–U+31FF 16文字

コードポイントの例

ひらがな コードポイント カタカナ コードポイント
あ (a) U+3042 ア (a) U+30A2
い (i) U+3044 イ (i) U+30A4
う (u) U+3046 ウ (u) U+30A6
え (e) U+3048 エ (e) U+30A8
お (o) U+304A オ (o) U+30AA

UTF-8エンコーディング

ひらがなとカタカナの文字はどちらもBMPに属し、UTF-8で3バイトを使用します:

  • あ(ひらがな ア)→ UTF-8: E3 81 82
  • ア(カタカナ ア)→ UTF-8: E3 82 A2

対応するひらがなとカタカナ文字のオフセットは正確に0x0060(10進数で96)です。この一貫したオフセットにより、コードポイントに0x60を加算または減算するだけの簡単なスクリプト変換が可能です。

半角カタカナ

レガシーの日本語コンピューティングでは半角カタカナ(U+FF65–U+FF9F)を使用しており、視覚的には狭いにもかかわらずUTF-8で3バイトを占めます。現代のシステムでは全角形式が推奨されていますが、半角バリアントはレガシーデータや固定幅表示に依然として現れます。

ユースケース

日本語テキスト処理システムの構築、ひらがな→カタカナ変換の実装、特定の日本語スクリプトのみを受け付ける入力フィールドの検証、日本語テキストデータのエンコーディング問題のデバッグに使用します。

試してみる — Unicode Inspector

フルツールを開く