Unicode Inspector

テキストを貼り付けて、各文字のUnicodeコードポイント、UTF-8/UTF-16エンコーディング、名前、カテゴリ、ブロックを調査します。

このツールについて

Unicode Inspectorは、文字列内のすべての文字について詳細な情報を 提供する無料のブラウザベースツールです。エンコーディングの問題の デバッグ、多言語テキストの分析、Unicodeの内部構造の学習など、 あらゆる用途で包括的な文字ごとの分析を即座に行えます。

入力された各文字について、Unicodeコードポイント(U+XXXX形式)、 UTF-8バイトシーケンス(16進数)、UTF-16コードユニット、Unicode 文字名、一般カテゴリ(文字、数字、句読点、記号、区切り文字、 制御文字、その他)、所属するUnicodeブロック(例:基本ラテン文字、 CJK統合漢字、絵文字)を表示します。UTF-8でのバイト数も表示され、 バイト長制限を設けているプロトコルやデータベースでの作業に 不可欠です。

サマリー統計パネルでは、合計文字数、コードポイント数、UTF-8と UTF-16の両方のバイトサイズ、ユニーク文字数を一目で確認できます。 これはストレージ要件の見積もりや、異なるエンコーディング間での 文字列長制約の検証に役立ちます。

コードポイント(U+0041)、文字名、カテゴリ、Unicodeブロックで 文字テーブルを検索できます。行をクリックすると、すべてのプロパティと クイックコピーボタンを備えた詳細パネルが開きます。絵文字やCJK拡張B 漢字など、UTF-16でサロゲートペアを必要とする補助面文字も正しく 処理されます。

テキスト処理に取り組んでいる場合は、ドキュメント統計用の 文字数カウンター、コード内の特殊文字の エンコーディング用の文字列エスケープツール、 スクリプト間の大文字小文字変換用の テキストケース変換と組み合わせて ご利用ください。

すべての処理はJavaScriptの文字列APIを使用してブラウザ内で完全に 実行されます。データがサーバーに送信されることはなく、テキストは 常にお使いの端末に留まります。機密性の高いコンテンツや独自の コンテンツでも安心して調査できます。

使い方

  1. ページ上部の入力エリアにテキストを入力または貼り付けます。
  2. サマリー統計バーで合計文字数、コードポイント数、UTF-8バイト数、UTF-16バイト数、ユニーク文字数を確認します。
  3. 文字テーブルで各文字のコードポイント、UTF-8バイト、UTF-16ユニット、名前、カテゴリ、ブロック、バイト数を閲覧します。
  4. 検索バーを使用して、コードポイント(例:U+00E9)、文字名、カテゴリ、Unicodeブロックで文字をフィルタリングします。
  5. テーブルの行をクリックして、すべてのプロパティがカードレイアウトで表示される詳細文字パネルを開きます。
  6. コピーボタンをクリックして、文字、コードポイント、UTF-8バイトをクリップボードにコピーします。
  7. Ctrl+Shift+Cを押して、現在選択中の文字をコピーします。Clearをクリックして入力をリセットし、やり直します。

Unicode Inspectorの人気の例

すべてのUnicode Inspectorの例を見る →

よくある質問

Unicode Inspectorはどのような情報を表示しますか?

各文字について、レンダリングされた文字、Unicodeコードポイント(U+XXXX)、UTF-8バイトシーケンス(16進数)、UTF-16コードユニット(16進数)、Unicode文字名、一般カテゴリ(文字、数字、句読点、記号、区切り文字、制御文字、その他)、Unicodeブロック名、UTF-8バイト数を表示します。サマリー統計には、文字数、コードポイント数、UTF-8バイト数、UTF-16バイト数、ユニーク文字数の合計が含まれます。

絵文字や補助文字はどのように処理されますか?

ツールはJavaScriptのUnicode対応文字列イテレーション(Symbol.iterator)を使用して、UTF-16でサロゲートペアが必要な場合でも、テキストを個別のUnicodeコードポイントに正しく分割します。例えば、地球儀の絵文字(U+1F30D)は、4バイトのUTF-8エンコーディングと2つのUTF-16コードユニットを持つ単一の文字として表示されます。

特定のコードポイントを検索できますか?

はい。検索バーにU+XXXX形式のコードポイント(例:アキュートアクセント付きeのU+00E9)、0xプレフィックス付き16進数値、または10進数を入力できます。文字名、カテゴリ、Unicodeブロック名でも検索できます。

UTF-8バイトとUTF-16コードユニットの違いは何ですか?

UTF-8は文字ごとに1〜4バイトを使用します。ASCII文字は1バイト、ほとんどのヨーロッパのアクセント付き文字は2バイト、CJK漢字は3バイト、絵文字は4バイトです。UTF-16は2または4バイト(それぞれ16ビットの1または2コードユニット)を使用します。基本多言語面(U+0000〜U+FFFF)の文字は1コードユニットを使用し、U+FFFFを超える補助文字は2コードユニットのサロゲートペアを使用します。

文字名はどの程度正確ですか?

ツールにはASCII文字、一般的な句読点、通貨記号、特殊Unicode文字(ゼロ幅スペース、BOMなど)をカバーする組み込みルックアップテーブルと、CJK、ひらがな、カタカナ、ハングル、絵文字のUnicodeブロック範囲から生成された名前が含まれています。あまり一般的でない文字には、コードポイントとブロックに基づく説明的な名前が提供されます。

データは安全ですか?

はい。すべての処理はJavaScriptを使用してブラウザ内で完全に実行されます。データがサーバーに送信されることはありません。ツール使用中にブラウザの開発者ツールのネットワークタブで確認できます。テキストはお使いの端末から外に出ることはありません。

エンコーディングの問題のデバッグに使えますか?

もちろんです。このツールは不可視文字(ゼロ幅スペース、バイトオーダーマーク、ノーブレークスペース)、文字化け(誤ってデコードされたテキスト)、データファイル内の予期しない文字の特定に最適です。UTF-8バイト表示により、文字が期待通りにエンコードされているか確認できます。

関連ツール

文字数カウンター

単語数、文字数、文数、段落数のカウントと読了時間の推定、キーワード頻度分析を行います。

文字列エスケープ/アンエスケープ

JSON、JavaScript、HTML、URL、SQL、CSV形式の文字列をエスケープ・アンエスケープします。

テキストケース変換

camelCase、PascalCase、snake_case、kebab-caseなどの命名規則間でテキストを変換します。

ASCII/Unicode一覧表

10進、16進、8進、2進値でASCIIおよびUnicode文字を検索・フィルタリングできます。

Base64エンコード/デコード

ドラッグ&ドロップ対応でBase64文字列やファイルをエンコード・デコードします。

空白文字ビジュアライザー

スペース、タブ、改行、ゼロ幅スペース、BOMなどの不可視文字を可視化します。改行コードの検出と隠し文字のクリーニングが可能。

文字列長計算ツール

文字数、コードポイント数、書記素クラスタ数、UTF-8/UTF-16/UTF-32のバイトサイズで文字列の長さを計算します。

Unicode正規化ツール

UnicodeテキストをNFC、NFD、NFKC、NFKD形式に正規化。各形式の並列比較と文字レベルの内訳表示。

ロケール文字列テスター

JavaScript Intl APIフォーマッターを任意のロケールでテスト。NumberFormat、DateTimeFormat等のプレビュー。

言語コードリファレンス

ISO 639言語コード、BCP 47タグ、ロケール識別子を検索、フィルタリング、クリックでコピー。