Como posso acessar a interface do usuário do Spark no Amazon EMR?

3 minuto de leitura
0

Quero ver as interfaces Web do Apache Spark que estão hospedadas em clusters do Amazon EMR.

Resolução

O Spark History Server é uma interface de usuário da Web na qual você pode ver o status das tarefas do Spark em execução e concluídas em seu cluster do EMR.

A seguir estão as formas comuns de acessar a interface do usuário do Spark hospedada em uma sub-rede pública e privada:

  • Interfaces de usuário de aplicativos persistentes
  • Interfaces de usuário de aplicativos em cluster

Interfaces de usuário de aplicativos persistentes

Em seu cluster do EMR, o daemon apppusher envia periodicamente logs de eventos do Spark para os buckets de produção do Amazon EMR. A interface persistente do Spark usa os logs de eventos para exibir os aplicativos do Spark.

Esse recurso funciona quando o diretório de log de eventos do aplicativo está no HDFS. Por padrão, o Amazon EMR armazena logs de eventos no diretório /var/log/spark/apps do HDFS. Se você alterar o diretório padrão para um sistema de arquivos diferente, como o Amazon Simple Storage Service (Amazon S3), esse recurso não funcionará. Para obter mais informações, consulte Considerações e limitações.

Você pode acessar o histórico do aplicativo e os arquivos de log relevantes para clusters ativos e encerrados. Os logs ficam disponíveis por 30 dias após o encerramento do aplicativo. Para obter mais informações, consulte Exibir interfaces de usuário de aplicativos persistentes.

Interfaces de usuário de aplicativos em cluster

As interfaces de usuário no cluster são hospedadas no nó primário e exigem uma conexão SSH com o servidor Web.

Para acessar a interface do usuário no cluster, faça o seguinte:

1.    Conecte-se ao nó primário usando SSH.

2.    Configure o Tunelamento SSH (SSH Tunneling) com encaminhamento dinâmico de portas.

3.    Configure seu navegador da Internet para usar um complemento como FoxyProxy para Firefox ou SwitchyOmega para Chrome para gerenciar suas configurações de proxy SOCKS.

Esse método filtra automaticamente os URLs com base em padrões de texto. Além disso, esse método limita as configurações de proxy a domínios que correspondam à forma do nome DNS do nó primário.

ssh -i ~/mykeypair.pem -N -L 8157:ec2-###-##-##-###.compute-1.amazonaws.com:18080 hadoop@ec2-###-##-##-###.compute-1.amazonaws.com

Para obter mais informações, consulte Opção 1: Configurar um túnel SSH para o nó primário usando o encaminhamento de porta local.

Uma interface de usuário no cluster em uma sub-rede privada não é acessível diretamente, a não ser que você esteja usando uma rede local por meio de uma conexão VPN ou do AWS Direct Connect. Além disso, você deve configurar a rota para que a comunicação abranja a AWS e as redes locais.

Ou, você pode se conectar a uma sub-rede privada usando um servidor bastion ou jump hospedado em uma sub-rede pública. Em seguida, crie um Tunelamento SSH com encaminhamento dinâmico de portas.

Para obter mais informações, consulte Acesso seguro às interfaces Web no Amazon EMR executado em uma sub-rede privada.


AWS OFICIAL
AWS OFICIALAtualizada há um ano