Por que não consigo conectar meu notebook do EMR ao cluster?

5 minuto de leitura
0

Não consigo conectar meu notebook do Amazon EMR ao meu cluster do EMR.

Breve descrição

Ao conectar um notebook do EMR ao cluster do EMR, você pode receber erros semelhantes aos seguintes:

  • Não é possível conectar-se ao cluster j-xxxxxxxxxxx. Motivo: falha na conexão do espaço de trabalho (notebook). Erro interno.
  • O notebook não é compatível com a zona de disponibilidade escolhida. Tente usar um cluster em outra zona de disponibilidade.
  • Falha ao anexar o espaço de trabalho (notebook). Configuração inválida.
  • O espaço de trabalho (notebook) está parado. O cluster j-xxxxxxxxxx não tem a aplicação JupyterEnterpriseGateway instalada. Tente novamente com outro cluster.
  • Erros do espaço de trabalho: não é possível conectar o notebook do EMR ao cluster em execução. Erro ao iniciar o kernel. HTTP 403: proibido (o espaço de trabalho não está conectado ao cluster). Clique em “OK” para continuar.)

Resolução

Verifique se o cluster conectado é compatível e atende a todos os requisitos do cluster

Os requisitos de clusters para notebooks do EMR são os seguintes:

1.    Somente clusters criados usando o Amazon EMR versão 5.18.0 e posterior são compatíveis.

2.    Clusters criados usando instâncias do Amazon Elastic Compute Cloud (Amazon EC2) com processadores AMD EPYC não são compatíveis. Por exemplo, os tipos de instância m5a.* e r5a.* não são compatíveis.

3.    Os notebooks do EMR funcionam somente com clusters criados com a variável VisibleToAllUsers definida como true (verdadeiro). VisibleToAllUsers é definida como true por padrão.

4.    O cluster deve ser executado dentro de uma Amazon Virtual Private Cloud (Amazon VPC) do EC2. Há suporte para sub-redes públicas e privadas.

5.    Atualmente, os notebooks do EMR são compatíveis apenas com clusters do Apache Spark.

6.    Para as versões 5.32.0 e posteriores do EMR, ou 6.2.0 e posteriores, seu cluster deve estar executando a aplicação Jupyter Enterprise Gateway.

7.    Clusters que usam a autenticação Kerberos não são compatíveis.

8.    Os clusters integrados ao AWS Lake Formation oferecem suporte somente à instalação de bibliotecas com escopo de notebook. Não há suporte para a instalação de kernels e bibliotecas no cluster.

9.    Clusters com vários nós primários não são compatíveis.

10.    Clusters que usam instâncias do Amazon EC2 baseadas no AWS Graviton2 não são compatíveis.

Para obter mais informações, consulte Cluster requirements (Requisitos de cluster).

Erro: Não é possível conectar-se ao cluster j-xxxxxxxxxxx. Motivo: falha na conexão do espaço de trabalho (notebook). Erro interno

Isso ocorre em clusters do EMR com a representação do Apache Livy ativada. Isso significa que a variável livy.impersonation.enabled está definida como true. No Amazon EMR 6.4.0, a representação do Livy é definida como verdadeira por padrão. O recurso de notebooks do EMR com a representação do usuário Livy desativada também tem o HttpFS desativado por padrão. Isso significa que o notebook do EMR não pode se conectar a clusters que tenham a representação de Livy ativada. Para obter mais informações, consulte Amazon EMR versão 6.4.0.

Para evitar esse problema, faça o seguinte:

Você pode usar qualquer versão mais antiga ou mais recente do EMR 6.4.0 em que o serviço hadoop-httpfs esteja em execução.

-ou-

Reinicie o serviço hadoop-httpfs no cluster fazendo o seguinte:

1.    Use SSH to connect to the EMR primary node (Usar SSH para se conectar ao nó primário do EMR).

2.    Execute o comando a seguir para iniciar o serviço hadoop-httpfs:

sudo systemctl start hadoop-httpfs

Ou você pode iniciar o serviço hadoop-httpfs usando uma etapa do EMR:

==========
JAR location: command-runner.jar
Main class: None
Arguments: bash -c "sudo systemctl start hadoop-httpfs"
Action on failure: Continue
==========

Execute o comando a seguir para verificar o status do HttpFS:

$ sudo systemctl status hadoop-httpfs
  hadoop-httpfs.service - Hadoop httpfs
   Loaded: loaded (/etc/systemd/system/hadoop-httpfs.service; disabled; vendor preset: disabled)
   Active: active (running)...

3.    Reconecte o cluster do EMR.

Erro: erros do espaço de trabalho

Veja os erros comuns do espaço de trabalho ao tentar conectar seu cluster do EMR a um notebook do EMR:

  • Não é possível conectar o notebook do EMR ao cluster em execução.
  • Erro ao iniciar o kernel.
  • HTTP 403: proibido (o espaço de trabalho não está conectado ao cluster). Escolha “OK” para continuar.)

Esses erros ocorrem porque a conta raiz da AWS não está autorizada a anexar notebooks do EMR aos clusters do EMR. O usuário raiz é considerado um usuário não autorizado para iniciar os kernels. Se o valor de KERNEL_USERNAME aparecer na lista unauthorized_users, a solicitação de conexão falhará. Para obter mais informações, consulte Security features (Recursos de segurança).

Para evitar erros no espaço de trabalho, crie um usuário do AWS Identity and Access Manager (AWS IAM) e, em seguida, anexe o cluster ao notebook. Para obter mais informações, consulte Criar um usuário do IAM na sua conta da AWS.


AWS OFICIAL
AWS OFICIALAtualizada há um ano