如何确定在 Amazon EMR 集群中是使用引导操作还是使用步骤?

1 分钟阅读
0

在 Amazon EMR 集群中运行引导操作或运行步骤的使用案例有哪些?

简短描述

使用引导操作在 EMR 集群上安装其他软件。使用步骤向 EMR 集群提交工作,或者处理数据。

解决方法

引导操作

  • 引导操作会在 EMR 集群从 STARTING(正在启动)状态转变为 BOOTSTRAPPING(引导启动)状态后运行。引导操作在 Hadoop 或 Spark 等核心服务安装之前运行。如果引导操作失败,则集群不会启动。有关更多信息,请参阅了解集群生命周期
  • 引导操作可在所有集群节点上运行。引导操作指的是默认情况下以 Hadoop 用户身份运行的脚本,但它们也可以使用 sudo 命令以根用户身份运行。您可以基于 instance.jsonjob-flow.json 文件中的实例特定值将引导操作配置为有条件地运行命令

**注意:**在 Amazon EMR 2.x 和 3.x 版本中,引导操作在核心服务安装后运行。更高的 Amazon EMR 版本不支持适用于 Amazon EMR AMI 版本 2.x 和 3.x 的大多数预定义引导操作。有关更多信息,请参阅创建引导操作以安装其他软件

步骤

  • 步骤是包含一个或多个 Hadoop 任务的工作单元。步骤通常用于传输或处理数据。一个步骤可能会提交工作至集群。其他步骤可能会处理提交的数据,然后将已处理的数据发送至特定位置。
  • 步骤在引导操作后开始,并且仅在主节点上运行。有关更多信息,请参阅运行步骤以处理数据
  • 在 Amazon EMR 发行版本 5.28.0 和更高版本中,您可以并行运行多个步骤。在较早的 Amazon EMR 发行版本中,步骤按照顺序完成其工作。
  • 当您配置步骤时,您可以选择步骤失败后的操作。

有关步骤的更多信息,请参阅使用 AWS CLI 和控制台执行步骤


相关信息

StepExecutionStatusDetail

计划和配置集群

AWS 官方
AWS 官方已更新 2 年前