기본 분류자를 사용하여 파일을 구문 분석할 때 AWS Glue 크롤러가 고정 너비 데이터 파일을 UNKNOWN으로 분류하는 이유는 무엇입니까?

3분 분량
0

기본 분류자를 사용하여 고정 너비 .dat 파일을 구문 분석할 때 AWS Glue 크롤러가 파일을 UNKNOWN으로 분류합니다.

간략한 설명

기본 분류자로는 고정 너비 데이터 파일을 구문 분석할 수 없습니다. grok 맞춤형 분류자를 대신 사용하십시오.

해결 방법

grok 맞춤형 분류자 생성

1.    AWS Glue 콘솔을 엽니다.

2.    탐색 창에서 [Classifiers(분류자)]를 선택합니다.

3.    [Add classifier(분류자 추가)]를 선택한 후 다음을 입력합니다.
[Classifier name(분류자 이름)]에 고유한 이름을 입력합니다.
[Classifier type(분류자 유형)]에서 Grok을 선택합니다.
[Classification(분류)]에 "특수 로그"와 같이 데이터의 형식 또는 유형에 대한 설명을 입력합니다.
[Grok pattern(Grok 패턴)]에 AWS Glue가 데이터에서 일치하는 항목을 찾는 데 사용할 기본 패턴을 입력합니다. .dat 파일을 구문 분석할 때는 필드 간에 구분 기호를 사용하지 않아도 됩니다. 필드마다 길이가 정해져 있기 때문에 정규식 패턴을 사용하여 일치하는 항목을 찾을 수 있습니다.
예:

(?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})

(선택 사항) [Custom patterns(사용자 지정 패턴)]에 사용할 사용자 지정 패턴을 모두 입력합니다. 이들 패턴은 데이터를 분류하는 grok 패턴에 참조됩니다. 사용자 지정 패턴은 각각 별도의 행에 입력해야 합니다. 자세한 내용은 AWS Glue의 사용자 지정 분류자 값을 참조하세요.

4.    [생성(Create)]을 선택합니다.

크롤러 생성 및 실행

1.    탐색 창에서 [Crawlers(크롤러)]를 선택합니다.

2.    [Add crawler(크롤러 추가)]를 선택합니다.

3.    [Crawler name(크롤러 이름)]에 고유한 이름을 입력합니다.

4.    [Tags, description, security configuration, and classifiers (optional)(태그, 설명, 보안 구성 및 분류자(선택 사항))] 화면 옆에 있는 화살표를 선택한 후 [Custom classifiers(사용자 지정 분류자)] 섹션을 찾습니다.

5.    앞서 생성한 사용자 지정 분류자 옆에 있는 [Add(추가)]를 선택한 후 [Next(다음)]를 선택합니다.

6.    [Specify crawler source type(크롤러 원본 유형 지정)] 페이지에서 [Data stores(데이터 스토어)]를 선택한 후 [Next(다음)]를 선택합니다.

7.    [Add a data store(데이터 스토어 추가)] 페이지에서 다음을 입력합니다.
[Choose data store(데이터 스토어 선택)]에서 원하는 데이터 스토어를 선택합니다.
[Include path(포함 경로)]에 .dat 파일의 경로를 입력합니다.

8.    [다음(Next)]을선택한 후 다른 데이터 스토어를 추가하겠다는 의사를 확인합니다.

9.    [Choose an IAM role(IAM 역할 선택)] 페이지에서 기존 AWS Identity and Access Management(IAM) 역할을 선택하거나 새 IAM 역할을 생성합니다. [Next(다음)]를 선택합니다.

10.    [Frequency(빈도)]에서 [Run on demand(필요 시 실행)]를 선택한 후 [Next(다음)]를 선택합니다.

11.    [Configure the crawler's output(크롤러의 출력 구성)] 페이지의 [Database(데이터베이스)]에서 테이블을 생성할 대상 데이터베이스를 선택합니다. [Next(다음)]를 선택합니다.

12.    [Finish(마침)]를 선택하여 크롤러를 생성합니다.

13.    크롤러 상태가 [준비됨(Ready)]으로 바뀌면 크롤러 이름을 선택한 후 [크롤러 실행(Run crawler)]을 선택합니다.

14.    크롤러가 완료될 때까지 기다린 후 탐색 창에서 [테이블(Tables)]를 선택합니다. [분류(Classification)]가 grok 사용자 지정 분류자(예: “특별 로그”)에 대해 입력한 분류와 일치해야 합니다.


관련 정보

AWS Glue 콘솔에서 분류자 작업 수행

grok 사용자 지정 분류자 작성

크롤러에 분류자 추가

AWS 공식
AWS 공식업데이트됨 3년 전