テキストからカラム境界を自動検出する
全行のホワイトスペースパターンを分析して、固定幅テキストのカラム境界を自動的に発見させます。
Auto-Detection
詳細な説明
自動カラム検出
ドキュメントなしで固定幅ファイルを受け取った場合、各カラムの開始と終了位置を手動で特定するのは面倒です。Auto-detect機能がデータを分析し、カラム境界を自動的に推論します。
アルゴリズムの動作
- 全行をスキャンし、最長行の長さを記録
- 全行にわたって各文字位置のスペースをカウント
- 70%以上の行にスペース文字がある位置をギャップとして特定
- ギャップ領域とデータ領域の間の遷移を検出
- 遷移ポイントを境界としてカラムを構築
例
入力テキスト:
Alice Engineering Senior 85000
Bob Marketing Junior 62000
Charlie Engineering Lead 95000
Diana Sales Manager 78000
アルゴリズムは全行の位置12-13、27-28、38-39にスペースを検出し、以下を生成します:
| カラム | 開始位置 | 幅 |
|---|---|---|
| Column1 | 0 | 12 |
| Column2 | 12 | 15 |
| Column3 | 27 | 11 |
| Column4 | 38 | 5 |
自動検出が最も効果的な場合
- カラムがスペースの連続で明確に区切られているテキスト
- 全行で一貫したカラム幅を持つデータ
- 連続する複数のスペースを含むフィールド値がないファイル
自動検出が困難な場合
- 隣接するカラム間にスペースがないデータ(例:ゼロパディングの数値がテキストに接している)
- 空の値を含むカラムが偽のスペース連続を生成する場合
- 不規則なフォーマットや行幅が混在するデータ
自動検出後、デフォルトのColumn1、Column2等からカラム名を変更し、検出がわずかにずれている場合は幅を調整できます。
ユースケース
外部パートナー、レガシーシステム、または政府データポータルから受け取った、カラム仕様が不明または紛失したドキュメントなしの固定幅ファイルを素早く解析する場合に使用します。