Question 1

文字数、コードポイント数、書記素クラスター数の違いは何ですか？

Accepted Answer

JavaScriptの.lengthはUTF-16コードユニットの数を返し、文字数ではありません。コードポイントは単一のUnicode値です。書記素クラスターは人間が1つの文字として認識するもので、複数のコードポイントで構成される場合があります。ASCIIテキストでは3つのカウントは同じですが、絵文字や非ラテン文字では大きく異なる場合があります。

Question 2

絵文字の.lengthとコードポイント数が異なるのはなぜですか？

Accepted Answer

U+FFFFを超える絵文字は2つのUTF-16コードユニット（サロゲートペア）を必要とするため、JavaScriptの.lengthは2とカウントします。家族の絵文字のような複雑な絵文字シーケンスはZero Width Joiner（ZWJ）を使用して複数の絵文字を結合するため、多くのコードユニットでありながら1つの視覚的書記素になります。

Question 3

データベースのVARCHAR制限にはどのカウントを使うべきですか？

Accepted Answer

データベースとエンコーディングによります。PostgreSQLのVARCHAR(n)は文字（コードポイント）をカウントします。utf8mb4のMySQL VARCHAR(n)も文字をカウントします。ただし、MySQLのTEXT型の制限はバイト単位です。バイト制限のカラムにはUTF-8バイト数を使用してください。

Question 4

書記素クラスター数はどのように計算されますか？

Accepted Answer

このツールはモダンブラウザで利用可能なIntl.Segmenter APIを書記素粒度で使用します。これにより、Unicodeセグメンテーション規則に従って、複雑な絵文字シーケンス、結合マーク、その他の複数コードポイント書記素を正しく処理します。

Question 5

サロゲートペアとは何ですか？

Accepted Answer

UTF-16はコードユニットあたり2バイトを使用します。U+FFFFを超えるコードポイントの文字は、1つの16ビットコードユニットに収まらないため、サロゲートペアと呼ばれるコードユニットのペアとしてエンコードされます。これが、JavaScriptの.lengthが単一の絵文字に対して2を返す理由です。

Question 6

データは安全ですか？

Accepted Answer

はい。すべての処理はJavaScriptを使用してブラウザ内で完全に実行されます。テキストがサーバーに送信されることはありません。ツール使用中にブラウザの開発者ツールのネットワークタブで確認できます。

Question 7

同じテキストでUTF-8とUTF-16のバイトサイズが異なるのはなぜですか？

Accepted Answer

UTF-8とUTF-16は異なる戦略の可変長エンコーディングです。UTF-8はASCIIに1バイト、他のほとんどのスクリプトに2-3バイト、絵文字に4バイトを使用します。UTF-16はほとんどの文字に2バイト、U+FFFFを超える文字に4バイトを使用します。英語テキストにはUTF-8がよりコンパクトです。CJKテキストにはUTF-16が小さくなることが多いです。

文字列長さ計算ツール

このツールについて

使い方

人気の文字列長さの例

よくある質問

関連ツール

文字数カウンター

Unicode文字インスペクター

文字列エスケープ/アンエスケープ

テキストケース変換

空白文字ビジュアライザー

LLM Token Counter