組み込み分類子を使って固定幅のデータファイルを解析すると、AWS Glue クローラーがそのファイルを UNKNOWN として分類するのはなぜですか?

所要時間1分
0

組み込み分類子を使用して固定幅の .dat ファイルを解析すると、AWS Glue クローラーはそのファイルを UNKNOWN として分類します。

簡単な説明

組み込み分類子は固定幅のデータファイルを解析できません。代わりに grok カスタム分類子を使用してください。

解決方法

grok カスタム分類子の作成

1.    AWS Glue コンソールを開きます。

2.    ナビゲーションペインで、[分類子] を選択します。

3.    [分類子の追加] を選択してから、次のように入力します。
分類子名には、固有の名前を入力します。
分類子の種類には、Grok を選択します。
分類子には、分類されるデータの形式または種類に関する説明 ("special-logs" など) を入力します。
Grok パターンの場合は、AWS Glue がデータの一致を見つけるために使用する組み込みパターンを入力します。.dat ファイルを解析するために、フィールド間に区切り文字を入力する必要はありません。各フィールドの長さは既知であるため、正規表現パターンを使用して一致するものを見つけることができます。
例:

(?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})

(任意) カスタムパターンに、使用するカスタムパターンを入力します。これらのパターンは、データを分類する grok パターンによって参照されます。各カスタムパターンは別々の行に存在しなければなりません。詳細については、「AWS Glue のカスタム分類子の値」を参照してください。

4.    [作成] を選択します。

クローラーの作成と実行

1.    ナビゲーションペインで、[クローラー] を選択します。

2.    [クローラーの追加] を選択します。

3.    クローラー名には、固有の名前を入力します。

4.    タグ、説明、セキュリティ設定、分類子 (任意) セクションの横にある矢印を選択して、カスタム分類子セクションを探します。

5.    前に作成したカスタマー分類子の横にある [追加] を選択してから、[次へ] を選択します。

6.    クローラーのソースタイプ指定ページで、[データストア]、[次へ] を順に選択します。

7.    データストアの追加ページで、次のように入力します。
データストアの選択で、お好みのデータストアを選択します。
パスを含めるに、.dat ファイルへのパスを入力します。

8.    [次へ] をクリックし、別のデータストアを追加するかどうかを確定します。

9.    IAM ロールの選択ページで、既存の AWS Identity and Access Management (IAM) ロールを選択するか、新しいロールを作成します。[次へ] を選択します。

10.    頻度で、[オンデマンドで実行]、[次へ] を順に選択します。

11.    クローラー出力設定ページのデータベースで、テーブルを作成するデータベースを選択します。[次へ] を選択します。

12.    [終了] を選択してクローラーを作成します。

13.    クローラーのステータスが [準備] に変わったら、クローラー名を選択してから [クローラーの実行] をクリックします。

14.    クローラーが終了するのを待ってから、ナビゲーションペインで [テーブル] を選択します。分類は、grok カスタム分類子に入力した分類 ("special-logs" など) と一致する必要があります。


関連情報

AWS Glue コンソールでの分類子の操作

Grok カスタム分類子の書き込み

分類子をクローラーに追加

AWS公式
AWS公式更新しました 3年前