在 Amazon EMR 叢集上執行引導操作或執行步驟的使用案例有哪些?
簡短描述
使用引導操作在 EMR 叢集上安裝其他軟體。使用步驟將工作提交至 EMR 叢集或處理資料。
解決方法
引導操作
- 引導操作會在 EMR 叢集從 STARTING 狀態轉換成 BOOTSTRAPPING 狀態後執行。引導操作會在安裝 Hadoop 或 Spark 等核心服務前執行。如果引導操作失敗,叢集不會啟動。如需詳細資訊,請參閱了解叢集生命週期。
- 引導操作會在所有叢集節點上執行。引導操作是預設為 Hadoop 使用者執行的指令碼,但也可以使用 sudo 命令以根使用者的身分執行。您可以設定引導操作根據 instance.json 或 job-flow.json 檔案中的執行個體特定值有條件地執行命令。
**注意:**在 Amazon EMR 2.x 和 3.x 版本上,引導操作會在安裝核心服務後執行。在較新的 Amazon EMR 版本中,不支援大多數 Amazon EMR AMI 2.x 和 3.x 版本中預先定義的引導操作。如需詳細資訊,請參閱建立引導操作以安裝其他軟體。
步驟
- 步驟是包含一個或多個 Hadoop 任務的工作單位。步驟通常用於傳輸或處理資料。一個步驟可能會將工作提交到叢集。其他步驟可能會處理提交的資料,然後將處理過的資料傳送到特定位置。
- 步驟在引導操作之後啟動,並僅在主節點上執行。如需詳細資訊,請參閱執行步驟以處理資料。
- 在 Amazon EMR 5.28.0 發行版本及更新版本中,您可以並行執行多個步驟。在舊的 Amazon EMR 發行版本中,步驟會依序完成其工作。
- 設定步驟時,您可以選擇步驟失敗後會發生什麼事。
如需步驟的詳細資訊,請參閱使用 AWS CLI 和主控台執行步驟。
相關資訊
StepExecutionStatusDetail
規劃和設定叢集