韓国語ハングルのUnicode正規化

韓国語ハングル音節でのUnicode正規化の仕組みを理解します。字母分解、ハングル音節合成、アルゴリズムによる分解/合成プロセスについて学びます。

Language-Specific

詳細な説明

ハングルとUnicode正規化

韓国語ハングルはUnicode正規化と独特の関係があります。合成と分解がルックアップテーブルではなくアルゴリズム的に定義されているためです。

ハングル音節構造

ハングル音節は以下で構成されます:

  • 初声(Choseong): 例 ᄀ(HANGUL CHOSEONG KIYEOK)
  • 中声(Jungseong): 例 ᅡ(HANGUL JUNGSEONG A)
  • 終声(Jongseong): 任意

NFC vs NFD(ハングル)

形式 가の結果 コードポイント
NFC U+AC00 (1コードポイント)
NFD 가 U+1100 + U+1161 (2コードポイント)

NFKCとハングル互換字母

Unicodeは「互換字母」(U+3131–U+3163)を含んでおり、NFKCはこれらを標準的な字母にマッピングします。

ユースケース

韓国語アプリケーション、韓国語コンテンツをインデックスする検索エンジン、混合ソースからの韓国語テキストを処理するシステムの開発者にとって不可欠です。macOSファイル名からの韓国語テキストはNFD字母を使用するため、標準的なNFCテキストとの比較には正規化が必要です。

試してみる — Unicode Normalizer

フルツールを開く