組み込み分類子を使用して固定幅の .dat ファイルを解析すると、AWS Glue クローラーはそのファイルを UNKNOWN として分類します。
簡単な説明
組み込み分類子は固定幅のデータファイルを解析できません。代わりに grok カスタム分類子を使用してください。
解決方法
grok カスタム分類子の作成
1. AWS Glue コンソールを開きます。
2. ナビゲーションペインで、[分類子] を選択します。
3. [分類子の追加] を選択してから、次のように入力します。
分類子名には、固有の名前を入力します。
分類子の種類には、Grok を選択します。
分類子には、分類されるデータの形式または種類に関する説明 ("special-logs" など) を入力します。
Grok パターンの場合は、AWS Glue がデータの一致を見つけるために使用する組み込みパターンを入力します。.dat ファイルを解析するために、フィールド間に区切り文字を入力する必要はありません。各フィールドの長さは既知であるため、正規表現パターンを使用して一致するものを見つけることができます。
例:
(?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})
(任意) カスタムパターンに、使用するカスタムパターンを入力します。これらのパターンは、データを分類する grok パターンによって参照されます。各カスタムパターンは別々の行に存在しなければなりません。詳細については、「AWS Glue のカスタム分類子の値」を参照してください。
4. [作成] を選択します。
クローラーの作成と実行
1. ナビゲーションペインで、[クローラー] を選択します。
2. [クローラーの追加] を選択します。
3. クローラー名には、固有の名前を入力します。
4. タグ、説明、セキュリティ設定、分類子 (任意) セクションの横にある矢印を選択して、カスタム分類子セクションを探します。
5. 前に作成したカスタマー分類子の横にある [追加] を選択してから、[次へ] を選択します。
6. クローラーのソースタイプ指定ページで、[データストア]、[次へ] を順に選択します。
7. データストアの追加ページで、次のように入力します。
データストアの選択で、お好みのデータストアを選択します。
パスを含めるに、.dat ファイルへのパスを入力します。
8. [次へ] をクリックし、別のデータストアを追加するかどうかを確定します。
9. IAM ロールの選択ページで、既存の AWS Identity and Access Management (IAM) ロールを選択するか、新しいロールを作成します。[次へ] を選択します。
10. 頻度で、[オンデマンドで実行]、[次へ] を順に選択します。
11. クローラー出力設定ページのデータベースで、テーブルを作成するデータベースを選択します。[次へ] を選択します。
12. [終了] を選択してクローラーを作成します。
13. クローラーのステータスが [準備] に変わったら、クローラー名を選択してから [クローラーの実行] をクリックします。
14. クローラーが終了するのを待ってから、ナビゲーションペインで [テーブル] を選択します。分類は、grok カスタム分類子に入力した分類 ("special-logs" など) と一致する必要があります。
関連情報
AWS Glue コンソールでの分類子の操作
Grok カスタム分類子の書き込み
分類子をクローラーに追加