Ir para o conteúdo

Como faço para acessar a interface de usuário do Spark no Amazon EMR?

3 minuto de leitura
0

Quero ver as interfaces de usuário da web do Apache Spark que meus clusters do Amazon EMR hospedam.

Resolução

O Spark History Server é uma interface de usuário da web na qual é possível visualizar o status dos trabalhos em execução e concluídos do Spark no seu cluster do Amazon EMR.

Para acessar a interface de usuário do Spark hospedada em uma sub-rede pública ou privada, use interfaces de usuário de aplicações persistentes ou interfaces de usuário de aplicações no cluster.

Interfaces de usuário de aplicações persistentes

Em seu cluster do Amazon EMR, o daemon apppusher envia periodicamente logs de evento do Spark para os buckets de produção do Amazon EMR. A interface de usuário persistente do Spark usa os logs de evento para mostrar as aplicações do Spark.

Esse atributo funciona quando o diretório do log de evento da aplicação está em um Sistema de arquivos distribuído do Hadoop (HDFS). Por padrão, o Amazon EMR armazena logs de evento no diretório /var/log/spark/apps do HDFS. Se você alterar o diretório padrão para um sistema de arquivos diferente, como o Amazon Simple Storage Service (Amazon S3), esse atributo não funcionará. Para obter mais informações, consulte Considerações e limitações.

É possível acessar o histórico da aplicação e os arquivos de log relevantes para clusters ativos e encerrados. Os logs ficam disponíveis por 30 dias após o término da aplicação. Para obter mais informações, consulte Exibir interfaces do usuário de aplicações persistentes no Amazon EMR.

Interfaces de usuário de aplicações no cluster

O nó primário hospeda as interfaces de usuário no cluster e você precisa de uma conexão SSH para acessar o servidor da web.

Para acessar a interface de usuário no cluster, conclua as seguintes etapas:

  1. Use SSH para se conectar ao nó primário.
  2. Configure o encapsulamento SSH com encaminhamento de portas dinâmicas.
  3. Configure seu navegador da internet para usar um complemento como FoxyProxy para Firefox ou SwitchyOmega para Chrome para gerenciar suas configurações de proxy SOCKS.
    Observação: esse método filtra automaticamente os URLs com base em padrões de texto. Além disso, esse método limita as configurações de proxy aos domínios que correspondem à forma do nome DNS do nó primário.

Uma interface de usuário no cluster em uma sub-rede privada não é diretamente acessível, a menos que você use uma rede local por meio de uma conexão VPN ou do AWS Direct Connect. Além disso, você deve configurar a rota para que a comunicação abranja a AWS e as redes locais.

Ou é possível usar um servidor bastion ou jump hospedado em uma sub-rede pública para se conectar a uma sub-rede privada. Em seguida, crie um encapsulamento SSH com encaminhamento de portas dinâmicas. Para obter mais informações, consulte Securely access web interfaces on Amazon EMR launched in a private subnet (Acesse com segurança interfaces web no Amazon EMR lançadas em uma sub-rede privada).

AWS OFICIALAtualizada há 4 meses