¿Cómo soluciono un error o bloqueo de consulta de Spark SQL en Amazon EMR?

3 minutos de lectura
0

Deseo recopilar información para solucionar problemas con mis consultas de Spark SQL en Amazon EMR.

Solución

Las consultas completadas de Spark SQL se encuentran en la pestaña Interfaces de usuario de aplicaciones del servidor de historial de Spark del clúster de EMR. Para obtener más información, consulte View persistent application user interfaces.

Para acceder a las consultas de Spark SQL completadas, haga lo siguiente:

  1. En el servidor de historial de Spark, seleccione SQL/DataFrame para ver las consultas de Spark SQL completadas.
  2. Seleccione los ID de la aplicación de trabajo de Spark SQL de la consulta para abrir la información de ID de trabajo completado en la pestaña Trabajos. Tenga en cuenta que una consulta de SQL puede tener más de un ID de trabajo.

La siguiente información está disponible en la pestaña Trabajos:

  • En la pestaña Trabajos, puede ver el estado del trabajo, su duración y la consulta de SQL asociada.
  • En la pestaña Trabajos, puede revisar la cronología del ID de la aplicación. La cronología muestra la adición y eliminación de los ejecutores de Spark en orden cronológico.
  • Desplácese hacia abajo para ver el DAG (gráfico acíclico directo). El DAG es una visualización de la consulta de Spark SQL. También puede ver la cadena de dependencias de RDD.
  • Siga desplazándose para ver las etapas completadas del trabajo de Spark SQL.
  • Seleccione la descripción del ID de etapa para ver el tiempo total de la consulta en todas las tareas, un resumen a nivel de ubicación y el ID de trabajo asociado. La vista de etapas proporciona detalles de todos los RDD que corresponden a esta etapa. Esta vista también proporciona información sobre la operación de RDD de nivel inferior relacionada con la operación de Spark SQL de alto nivel.
  • Expanda Aggregated Metric by Executor para ver el registro Ejecutores. El registro de ejecutores proporciona detalles adicionales sobre el trabajo de Spark SQL.

A continuación se muestra un registro de ejemplo:

23/01/17 18:10:17 INFO Executor: Finished task 0.0 in stage 16.0 (TID 16). 1882 bytes result sent to driver
23/01/17 18:10:17 INFO YarnCoarseGrainedExecutorBackend: Got assigned task 17
23/01/17 18:10:17 INFO Executor: Running task 0.0 in stage 17.0 (TID 17)
23/01/17 18:10:17 INFO TorrentBroadcast: Started reading broadcast variable 17 with 1 pieces (estimated total size 4.0 MiB)
23/01/17 18:10:17 INFO MemoryStore: Block broadcast_17_piece0 stored as bytes in memory (estimated size 7.2 KiB, free 4.8 GiB)
23/01/17 18:10:17 INFO TorrentBroadcast: Reading broadcast variable 17 took 8 ms
23/01/17 18:10:17 INFO MemoryStore: Block broadcast_17 stored as values in memory (estimated size 13.8 KiB, free 4.8 GiB)
23/01/17 18:10:17 INFO PythonRunner: Times: total = 52, boot = -31, init = 83, finish = 0
23/01/17 18:10:17 INFO Executor: Finished task 0.0 in stage 17.0 (TID 17). 1883 bytes result sent to driver
23/01/17 18:11:20 ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM
23/01/17 18:11:20 INFO MemoryStore: MemoryStore cleared
23/01/17 18:11:20 INFO BlockManager: BlockManager stopped
23/01/17 18:11:20 INFO ShutdownHookManager: Shutdown hook called

Para obtener información detallada, consulte Jobs Tab en la sección Web UI de la documentación de Apache Spark.

Información relacionada

Examine the log files

OFICIAL DE AWS
OFICIAL DE AWSActualizada hace un año