如何将 Amazon EMR Notebook 链接到 Git 存储库?

1 分钟阅读
0

我想将我的 Amazon EMR Notebook 链接到 Git 存储库。

解决方法

通过将 Git 存储库与 Amazon EMR Notebooks 相关联,您可以将 Notebooks 保存在版本受控的环境中。最多可以将三个存储库与一个 Notebook 相关联。

要创建新的 EMR Notebook 并将其与现有 Git 存储库相关联,请执行以下操作:

1.    在虚拟私有云(VPC)中创建私有子网

2.    创建 NAT 网关

3.    更新路由表以指向 NAT 网关。

4.    在私有子网中启动 Amazon EMR 集群。在 Software configuration(软件配置)部分,确保您选择的配置包括 Apache Spark、Apache Hadoop 和 Apache Livy。

5.    在等候 EMR 集群达到 WAITING(等待)状态时,添加 Git 存储库。对于 Git credentials(Git 凭证),选择 Create a new secret(创建新密钥)。请确保 Username(用户名)是 Git 账户的别名,而不是电子邮件地址。有关更多信息,请参阅使用别名

6.    使用以下出站规则创建安全组
规则 1
**类型:**自定义 TCP 规则
**协议:**TCP
**端口范围:**18888
**目标:**ElasticMapReduceEditors-Livy

规则 2
**类型:**HTTPS
**协议:**TCP
**端口范围:**443
**目标:**0.0.0.0/0

这将允许 Notebook 使用集群访问互联网。有关更多信息,请参阅在将 Notebooks 与 Git 存储库关联时自定义 EMR Notebooks 的 EC2 安全组

7.    将入站规则添加ElasticMapReduceEditors-Livy 安全组:
**类型:**自定义 TCP 规则
**协议:**TCP
**端口范围:**18888
**目标:**输入您在上一步中创建的安全组的名称。

8.    修改 EMR Notebooks 的服务角色 (EMR_Notebooks_DefaultRole),以允许 secretsmanager:GetSecretValue 操作。

9.    使用以下安全组设置创建 EMR Notebook
在 **Security groups(安全组)**部分,选择 Choose security groups(选择安全组)
对于 Security groups for master instance(主实例的安全组),选择 ElasticMapReduceEditors-Livy
对于 Security groups for notebook instance(Notebook 实例的安全组),选择您在第 6 步中创建的安全组。

Git 存储库状态将变为 Linked(已链接)。您现在可以在 Notebook 中使用 Git 存储库


相关信息

将基于 Git 的存储库与 EMR Notebook 相关联

EMR Notebook

相关视频

AWS 官方
AWS 官方已更新 2 年前