如何判斷要在 Amazon EMR 叢集上使用引導操作或步驟?

1 分的閱讀內容
0

在 Amazon EMR 叢集上執行引導操作或執行步驟的使用案例有哪些?

簡短描述

使用引導操作在 EMR 叢集上安裝其他軟體。使用步驟將工作提交至 EMR 叢集或處理資料。

解決方法

引導操作

  • 引導操作會在 EMR 叢集從 STARTING 狀態轉換成 BOOTSTRAPPING 狀態後執行。引導操作會在安裝 Hadoop 或 Spark 等核心服務前執行。如果引導操作失敗,叢集不會啟動。如需詳細資訊,請參閱了解叢集生命週期
  • 引導操作會在所有叢集節點上執行。引導操作是預設為 Hadoop 使用者執行的指令碼,但也可以使用 sudo 命令以根使用者的身分執行。您可以設定引導操作根據 instance.jsonjob-flow.json 檔案中的執行個體特定值有條件地執行命令

**注意:**在 Amazon EMR 2.x 和 3.x 版本上,引導操作會在安裝核心服務後執行。在較新的 Amazon EMR 版本中,不支援大多數 Amazon EMR AMI 2.x 和 3.x 版本中預先定義的引導操作。如需詳細資訊,請參閱建立引導操作以安裝其他軟體

步驟

  • 步驟是包含一個或多個 Hadoop 任務的工作單位。步驟通常用於傳輸或處理資料。一個步驟可能會將工作提交到叢集。其他步驟可能會處理提交的資料,然後將處理過的資料傳送到特定位置。
  • 步驟在引導操作之後啟動,並僅在主節點上執行。如需詳細資訊,請參閱執行步驟以處理資料
  • 在 Amazon EMR 5.28.0 發行版本及更新版本中,您可以並行執行多個步驟。在舊的 Amazon EMR 發行版本中,步驟會依序完成其工作。
  • 設定步驟時,您可以選擇步驟失敗後會發生什麼事。

如需步驟的詳細資訊,請參閱使用 AWS CLI 和主控台執行步驟


相關資訊

StepExecutionStatusDetail

規劃和設定叢集

AWS 官方
AWS 官方已更新 2 年前