CSVファイルのホワイトスペース問題をデバッグ

列のずれ、インポート失敗、データ品質の問題を引き起こすCSVデータ内の隠れたホワイトスペースを検出します。CRLF、BOM、不正なスペースを特定します。

Unicode Whitespace

詳細な説明

CSVファイルのホワイトスペース問題

CSVファイルは単純に見えますが、不可視のホワイトスペース文字はデータインポート失敗、列のずれ、データ品質問題の主要な原因です。ホワイトスペースビジュアライザーはこれらの問題の診断と修正に役立ちます。

一般的なCSVのホワイトスペース問題

1. ファイル先頭のBOM

多くのExcelエクスポートにはUTF-8 BOMが含まれます。他のツールでインポートすると、BOMが最初の列ヘッダーの一部になります:

[BOM]name,email,age     // "name"ヘッダーに不可視のBOMが含まれる

最初の列がヘッダーベースのルックアップに失敗します。

2. CRLF vs LF改行コード

WindowsのCSVファイルはCRLFを使用し、Unixツールはlfを期待します。混在すると:

  • 余分な空白行
  • 最終列の値に末尾の\rが含まれる
  • 行数の不一致

3. 末尾のスペースとタブ

値の末尾の不可視スペースやタブが比較失敗を引き起こします:

name,status
Alice,active\t    // 末尾タブ
Bob,active         // 末尾タブなし

status == "active"のフィルターはBobにはマッチしますがAlice(値が"active\t")にはマッチしません。

4. データ値内のNBSP

フォーマットされたスプレッドシートからコピーされたノーブレークスペースは通常のスペースに見えますが異なります:

product,price
Widget Pro,9.99    // 商品名にNBSP
Widget Pro,9.99         // 通常スペース

マッチしない重複に見えるレコードが作成されます。

デバッグワークフロー

  1. CSVをテキストエディタで開き、内容をコピーします。
  2. ホワイトスペースビジュアライザーに貼り付けます。
  3. 先頭の[BOM]を確認 — CleanでBOMを有効にして除去します。
  4. Line Endingsパネルでcrlf vs lfの一貫性を確認します。
  5. データ値内の°(NBSP)マーカーをスキャンします。
  6. 行末の末尾·(スペース)や→(タブ)マーカーを探します。
  7. 関連する文字をクリーンアップしてCSVを再インポートします。

予防

CSVファイルをプログラムで生成する際は、BOMなしのUTF-8で書き込み、一貫した改行コード(LF推奨)を使用し、書き込み前に値のホワイトスペースをトリムしてください。

ユースケース

データアナリストがCSVをデータベースにインポートしますが、JOINクエリが多くの一致するレコードを見逃します。ホワイトスペースビジュアライザーが、Excelからエクスポートされたcsvの末尾タブ、商品名内のNBSP、最初の列ヘッダーを認識不能にするBOMを検出します。クリーニング後、インポートとJOINが正しく動作します。

試してみる — Whitespace Visualizer

フルツールを開く