我想解決使用 AWS Glue 編目程式爬取 .csv 檔案中的資料時,發生的常見問題。
簡短說明
AWS Glue 編目程式中造成內建 .csv 分類器錯誤的一些常見問題包括:
- 第一列資料不會指定為標頭,然後資料會顯示通用欄位標頭,例如 col1 和 col2。
- 無法辨識兩個引號之間的資料,例如「ABC」和「XYZ」。
解決方法
建立自訂的 .csv 分類器,然後將自訂分類器新增至新的 AWS Glue 編目程式。
建立自訂分類器
使用 AWS Glue 主控台建立自訂分類器。使用下列參數來定義分類器:
- 在 Classifier name (分類器名稱) 中,輸入唯一的名稱。
- 在 Classifier type (分類器類型) 中,選擇 CSV。
- 在 Column delimiter (欄位分隔符) 中,選取逗號符號。
- 在 Quote symbol (引號符號) 中,選取引號符號。
- 在 Column headings (欄位標題) 中,選擇 Has headings (有標題)。
(選用) 如果您知道欄位的名稱,請輸入標題名稱。請務必使用逗號分隔名稱。
注意: 依預設,.csv 分類器會使用 Open CSV SerDe 作為序列化程式庫。Open CSV SerDe 支援帶有雙引號和您指定標頭的資料。如需詳細資訊,請參閱 CSV SerDe 程式庫。
將自訂分類器新增至新的 AWS Glue 編目程式
建立新的 AWS Glue 編目程式。使用下列參數來設定編目程式:
- 在 Data source (資料來源) 中,選取 .csv 檔案所在的資料儲存區。
- 在 Include path (包括路徑) 中,輸入 .csv 檔案的包括路徑。
- 在 Custom classifiers (自訂分類器) 中,將您建立的自訂 .csv 分類器新增至分類器清單中。
- 在 IAM Role (IAM 角色) 中,請選取具有爬取 .csv 檔案所需權限的 AWS Identity and Access Management (IAM) 角色。