Amazon EMR에서 Spark SQL JDBC 연결을 설정하려면 어떻게 해야 합니까?

1분 분량
0

Amazon EMR 클러스터의 SQL 클라이언트에서 SQL 쿼리를 실행할 수 있도록 Spark Thrift 서버용 Java Database Connectivity(JDBC) 드라이버를 구성하려고 합니다.

해결 방법

1.    SQuirrel SQL 클라이언트를 다운로드하고 설치합니다.

2.    SSH를 사용하여 마스터 노드에 연결합니다.

3.    마스터 노드에서 다음 명령을 실행하여 Spark Thrift 서버를 시작합니다.

sudo /usr/lib/spark/sbin/start-thriftserver.sh

4.    마스터 노드의 /usr/lib/spark/jars 디렉터리에서 모든 .jar 파일을 로컬 시스템으로 복사합니다.

5.    SQuirrel SQL 클라이언트를 열고 새 드라이버를 만듭니다.
[이름(Name)]에 Spark JDBC Driver를 입력합니다.
[예제 URL(Example URL)]에 jdbc:hive2://localhost:10001을 입력합니다.

6.    [추가 클래스 경로(Extra Class Path)] 탭에서 [추가(Add)]를 선택합니다.

7.    대화 상자의 4단계에서 .jar 파일을 복사한 디렉터리로 이동한 다음 모든 파일을 선택합니다.

8.    [클래스 이름(Class Name)] 필드에 org.apache.hive.jdbc.HiveDriver를 입력한 다음 [확인(OK)]을 선택합니다.

9.    로컬 컴퓨터에서 로컬 포트 전달을 사용하여 SSH 터널을 설정합니다.

ssh -o ServerAliveInterval=10 -i path-to-key-file -N -L 10001:localhost:10001 hadoop@master-public-dns-name

10.    Spark Thrift 서버에 연결하려면 SQuirrel SQL 클라이언트에서 새 별칭을 만듭니다.
[이름(Name)]에 Spark JDBC를 입력합니다.
[드라이버(Driver)]에 Spark JDBC Driver를 입력합니다.
[URL]에 jdbc:hive2://localhost:10001을 입력합니다.
[사용자 이름(Username)]에 hadoop을 입력합니다.

11.    SQuirrel SQL 클라이언트에서 쿼리를 실행합니다.


AWS 공식
AWS 공식업데이트됨 일 년 전