跳至內容

如何在使用 AWS Glue 編目程式爬取 .csv 檔案時,進行錯誤疑難排解?

1 分的閱讀內容
0

我想解決使用 AWS Glue 編目程式爬取 .csv 檔案中的資料時,發生的常見問題。

簡短說明

AWS Glue 編目程式中造成內建 .csv 分類器錯誤的一些常見問題包括:

  • 第一列資料不會指定為標頭,然後資料會顯示通用欄位標頭,例如 col1 和 col2。
  • 無法辨識兩個引號之間的資料,例如「ABC」和「XYZ」。

解決方法

建立自訂的 .csv 分類器,然後將自訂分類器新增至新的 AWS Glue 編目程式。

建立自訂分類器

使用 AWS Glue 主控台建立自訂分類器。使用下列參數來定義分類器

  • Classifier name (分類器名稱) 中,輸入唯一的名稱。
  • Classifier type (分類器類型) 中,選擇 CSV
  • Column delimiter (欄位分隔符) 中,選取逗號符號。
  • Quote symbol (引號符號) 中,選取引號符號。
  • Column headings (欄位標題) 中,選擇 Has headings (有標題)。
    (選用) 如果您知道欄位的名稱,請輸入標題名稱。請務必使用逗號分隔名稱。

注意: 依預設,.csv 分類器會使用 Open CSV SerDe 作為序列化程式庫。Open CSV SerDe 支援帶有雙引號和您指定標頭的資料。如需詳細資訊,請參閱 CSV SerDe 程式庫

將自訂分類器新增至新的 AWS Glue 編目程式

建立新的 AWS Glue 編目程式。使用下列參數來設定編目程式:

  • Data source (資料來源) 中,選取 .csv 檔案所在的資料儲存區。
  • Include path (包括路徑) 中,輸入 .csv 檔案的包括路徑。
  • Custom classifiers (自訂分類器) 中,將您建立的自訂 .csv 分類器新增至分類器清單中。
  • IAM Role (IAM 角色) 中,請選取具有爬取 .csv 檔案所需權限的 AWS Identity and Access Management (IAM) 角色。
AWS 官方已更新 1 年前