CSVデリミタオプション:タブ、セミコロン、パイプ
タブ区切り(TSV)、セミコロン区切り、パイプ区切りなど、カンマ以外のデリミタを使用するCSVファイルの処理方法。自動検出のヒント付き。
Formatting
詳細な説明
カンマ以外のデリミタの処理
「カンマ区切り値」という名前にもかかわらず、CSVファイルは他のデリミタを使用することがよくあります。地域、ツール、データソースによって異なるセパレータが好まれます。
一般的なデリミタ
| デリミタ | 名前 | 一般的なソース |
|---|---|---|
, |
カンマ | US/UKロケール、ほとんどのプログラミングツール |
; |
セミコロン | ヨーロッパのロケール(カンマが小数点セパレータ) |
\t |
タブ (TSV) | データベースエクスポート、Unixツール |
| ` | ` | パイプ |
ヨーロッパでセミコロンが使われる理由
ドイツ、フランス、ブラジルなどの国では、カンマが小数点セパレータとして使用されます(3.14ではなく3,14)。曖昧さを避けるため、これらのロケールのCSVファイルはセミコロンを使用します。
タブ区切り値 (TSV)
TSVファイルはタブ文字をデリミタとして使用します。タブはデータ値にめったに含まれないため、クォーティングの問題がほとんどなくなり、人気があります。
自動検出戦略
実用的なデリミタ検出アルゴリズム:
- ファイルの最初の5行を読む
- 各候補デリミタ(
,、;、\t、|)について、各行が生成するフィールド数をカウント - すべての行で最も一貫したフィールド数を与えるデリミタが正しいと推定
- 同点の場合はカンマ > タブ > セミコロン > パイプの順で優先
ユースケース
セミコロン区切りのCSVファイルをエクスポートするヨーロッパのERPシステムからデータを取り込み、US拠点の分析パイプライン用に標準的なカンマ区切り形式に変換する場合に使用します。