Como soluciono problemas de uma consulta do Spark SQL com falha ou travada no Amazon EMR?

3 minuto de leitura
0

Quero coletar informações para solucionar problemas com minhas consultas do Spark SQL no Amazon EMR.

Resolução

As consultas concluídas do Spark SQL estão localizadas na guia Interfaces de usuário da aplicação do servidor de histórico do Spark do cluster do EMR. Para obter mais informações, consulte Exibir interfaces de usuário de aplicações persistentes.

Para acessar as consultas concluídas do Spark SQL, faça o seguinte:

  1. No servidor de histórico do Spark, selecione SQL/DataFrame para visualizar as consultas concluídas do Spark SQL.
  2. Selecione os IDs da aplicação da tarefa de consulta do Spark SQL para abrir as informações do ID da tarefa preenchidas na guia Tarefas. Observe que uma consulta SQL pode ter mais de um ID da tarefa.

As seguintes informações estão disponíveis na guia Tarefas:

  • Na guia Tarefas, você pode ver o status e a duração da tarefa, e a consulta SQL associada.
  • Na guia Tarefas, você pode revisar a linha do tempo do ID da aplicação. A linha do tempo exibe a adição e remoção dos executores do Spark em ordem cronológica.
  • Role para baixo para ver o DAG (Grafo acíclico dirigido). O DAG é uma visualização da consulta do Spark SQL. Você também pode ver a cadeia de dependências do RDD.
  • Continue lendo para ver as etapas concluídas da tarefa do Spark SQL.
  • Selecione a descrição do ID do estágio para ver o tempo total da consulta em todas as tarefas, um resumo no nível da localidade e o ID da tarefa associada. A visualização de estágios fornece detalhes de todos os RDDs que correspondem a esse estágio. Essa visualização também fornece informações sobre a operação de RDD de nível inferior relacionada à operação de alto nível do Spark SQL.
  • Expanda Métrica agregada por executor para visualizar o log Executores. O log de executores fornece detalhes adicionais sobre a tarefa do Spark SQL.

Veja a seguir um exemplo de log:

23/01/17 18:10:17 INFO Executor: Finished task 0.0 in stage 16.0 (TID 16). 1882 bytes result sent to driver
23/01/17 18:10:17 INFO YarnCoarseGrainedExecutorBackend: Got assigned task 17
23/01/17 18:10:17 INFO Executor: Running task 0.0 in stage 17.0 (TID 17)
23/01/17 18:10:17 INFO TorrentBroadcast: Started reading broadcast variable 17 with 1 pieces (estimated total size 4.0 MiB)
23/01/17 18:10:17 INFO MemoryStore: Block broadcast_17_piece0 stored as bytes in memory (estimated size 7.2 KiB, free 4.8 GiB)
23/01/17 18:10:17 INFO TorrentBroadcast: Reading broadcast variable 17 took 8 ms
23/01/17 18:10:17 INFO MemoryStore: Block broadcast_17 stored as values in memory (estimated size 13.8 KiB, free 4.8 GiB)
23/01/17 18:10:17 INFO PythonRunner: Times: total = 52, boot = -31, init = 83, finish = 0
23/01/17 18:10:17 INFO Executor: Finished task 0.0 in stage 17.0 (TID 17). 1883 bytes result sent to driver
23/01/17 18:11:20 ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM
23/01/17 18:11:20 INFO MemoryStore: MemoryStore cleared
23/01/17 18:11:20 INFO BlockManager: BlockManager stopped
23/01/17 18:11:20 INFO ShutdownHookManager: Shutdown hook called

Para obter informações detalhadas, consulte a guia Tarefas na seção UI da Web da documentação do Apache Spark.

Informações relacionadas

Examinar os arquivos de log

AWS OFICIAL
AWS OFICIALAtualizada há um ano