Por que minhas instâncias spot do EMR não estão sendo provisionadas durante o redimensionamento de um cluster?

2 minuto de leitura
0

Minhas instâncias spot do Amazon EMR não estão sendo provisionadas durante o redimensionamento do meu cluster EMR.

Resolução

O Amazon Elastic Compute Cloud (Amazon EC2) pode interromper sua instância spot a qualquer momento pelos seguintes motivos:

  • Falta de capacidade de spot.
  • As restrições da solicitação não podem ser atendidas.
  • O preço de spot é maior do que o preço máximo designado.
  • A cota da sua conta Spot está esgotada. Se for esse o caso, você pode solicitar um aumento.

Para mais informações, consulte Why did Amazon EC2 interrupt my Spot Instance? (Por que o Amazon EC2 interrompeu minha instância spot?)

Observação: a prática recomendada é usar instâncias spot para workloads sem estado, tolerantes a falhas e flexíveis o suficiente para resistir a interrupções.

Além disso, as instâncias spot e as instâncias sob demanda podem não ser redimensionadas porque os scripts de bootstrap foram modificados ou contêm erros.

Verifique os logs do script de bootstrap em /emr/instance-controller/log/bootstrap-actions ou s3://cluster_id/node-failed/bootstrap-actions/stderr.gz. Os logs mostram o erro STARTUP_SCRIPT_FAILED_RET_CODE.

Por exemplo, o log de ações de bootstrap a seguir mostra que a ação de bootstrap 1 (emr_bootstrap_actions.sh) falhou:

Another app is currently holding the yum lock; waiting for it to exit...
  The other application is: yum
    Memory : 125 M RSS (444 MB VSZ)
    Started: Tue Jul 19 05:36:36 2022 - 00:03 ago
    State  : Running, pid: 7914
Error: Package: falcon-sensor-4.18.0-6403.amzn2.x86_64 (/falcon-sensor-4.18.0-6403.amzn2.x86_64)
           Requires: systemd

Se você vir o erro anterior, as seguintes ações acontecerão:

  • Todos os novos nós de substituição são encerrados.
  • O nó interrompe o provisionamento de novas instâncias de substituição.
  • O grupo de instâncias do nó central entra no modo interrompido, conforme mostrado no exemplo a seguir:
"state": "ARRESTED",
  "message": "Instance group ig-2JN5xxxxxxxx in Amazon EMR cluster j-37H4xxxxxxx (emr-xxxxx-spark-cluster) was arrested at  for the following reason: Error provisioning instances."
=====

Informações relacionadas

Interrupções da instância spot

Status da solicitação spot

Melhores práticas da instância spot

Por que minha instância spot está sendo encerrada mesmo que o preço máximo seja maior do que o preço de spot?

AWS OFICIAL
AWS OFICIALAtualizada há um ano