テキストからカラム境界を自動検出する

全行のホワイトスペースパターンを分析して、固定幅テキストのカラム境界を自動的に発見させます。

Auto-Detection

詳細な説明

自動カラム検出

ドキュメントなしで固定幅ファイルを受け取った場合、各カラムの開始と終了位置を手動で特定するのは面倒です。Auto-detect機能がデータを分析し、カラム境界を自動的に推論します。

アルゴリズムの動作

  1. 全行をスキャンし、最長行の長さを記録
  2. 全行にわたって各文字位置のスペースをカウント
  3. 70%以上の行にスペース文字がある位置をギャップとして特定
  4. ギャップ領域とデータ領域の間の遷移を検出
  5. 遷移ポイントを境界としてカラムを構築

入力テキスト:

Alice       Engineering    Senior     85000
Bob         Marketing      Junior     62000
Charlie     Engineering    Lead       95000
Diana       Sales          Manager    78000

アルゴリズムは全行の位置12-13、27-28、38-39にスペースを検出し、以下を生成します:

カラム 開始位置
Column1 0 12
Column2 12 15
Column3 27 11
Column4 38 5

自動検出が最も効果的な場合

  • カラムがスペースの連続で明確に区切られているテキスト
  • 全行で一貫したカラム幅を持つデータ
  • 連続する複数のスペースを含むフィールド値がないファイル

自動検出が困難な場合

  • 隣接するカラム間にスペースがないデータ(例:ゼロパディングの数値がテキストに接している)
  • 空の値を含むカラムが偽のスペース連続を生成する場合
  • 不規則なフォーマットや行幅が混在するデータ

自動検出後、デフォルトのColumn1Column2等からカラム名を変更し、検出がわずかにずれている場合は幅を調整できます。

ユースケース

外部パートナー、レガシーシステム、または政府データポータルから受け取った、カラム仕様が不明または紛失したドキュメントなしの固定幅ファイルを素早く解析する場合に使用します。

試してみる — Fixed Width ↔ CSV Converter

フルツールを開く