¿Cómo soluciono un error de consulta de Spark SQL o una consulta bloqueada en Amazon EMR?

3 minutos de lectura
0

Quiero recopilar información para solucionar problemas con mis consultas de Spark SQL en Amazon EMR.

Resolución

Las consultas completadas de Spark SQL se encuentran en la pestaña Application User Interfaces (Interfaces de usuario de aplicaciones) de Spark History Server del clúster de EMR. Para obtener más información, consulte View persistent application user interfaces (Ver interfaces de usuario de aplicaciones persistentes).

Para acceder a las consultas de Spark SQL completadas, haga lo siguiente:

  1. En Spark History Server, seleccione SQL/DataFrame para ver las consultas de Spark SQL completadas.
  2. Seleccione los ID de la aplicación de trabajo de Spark SQL de la consulta para abrir la información de ID de trabajo completa en la pestaña Jobs (Trabajos). Tenga en cuenta que una consulta SQL puede tener más de un ID de trabajo.

La siguiente información está disponible en la pestaña Jobs (Trabajos):

  • En la pestaña Jobs (Trabajos), puede ver el estado del trabajo, la duración del trabajo y la consulta SQL asociada.
  • En la pestaña Jobs (Trabajos), puede revisar la cronología del ID de aplicación. La cronología muestra la adición y eliminación de los ejecutores de Spark en orden cronológico.
  • Desplácese hacia abajo para ver el DAG (gráfico acíclico directo). El DAG es una visualización de la consulta de Spark SQL. También puede ver la cadena de dependencias de RDD.
  • Siga leyendo para ver las etapas completas del trabajo de Spark SQL.
  • Seleccione la descripción del ID de etapa para ver el tiempo total de la consulta en todas las tareas, un resumen a nivel de localidad y el ID de trabajo asociado. La vista de etapas proporciona detalles de todos los RDD que corresponden a esta etapa. Esta vista también proporciona información sobre la operación RDD de nivel inferior relacionada con la operación de Spark SQL de alto nivel.
  • Expanda Aggregated Metric by Executor (Métrica agregada por ejecutor) para ver el registro Executors (Ejecutores). El registro de ejecutores proporciona detalles adicionales sobre el trabajo de Spark SQL. A continuación se muestra un registro de ejemplo:
23/01/17 18:10:17 INFO Executor: Finished task 0.0 in stage 16.0 (TID 16). 1882 bytes result sent to driver
23/01/17 18:10:17 INFO YarnCoarseGrainedExecutorBackend: Got assigned task 17
23/01/17 18:10:17 INFO Executor: Running task 0.0 in stage 17.0 (TID 17)
23/01/17 18:10:17 INFO TorrentBroadcast: Started reading broadcast variable 17 with 1 pieces (estimated total size 4.0 MiB)
23/01/17 18:10:17 INFO MemoryStore: Block broadcast_17_piece0 stored as bytes in memory (estimated size 7.2 KiB, free 4.8 GiB)
23/01/17 18:10:17 INFO TorrentBroadcast: Reading broadcast variable 17 took 8 ms
23/01/17 18:10:17 INFO MemoryStore: Block broadcast_17 stored as values in memory (estimated size 13.8 KiB, free 4.8 GiB)
23/01/17 18:10:17 INFO PythonRunner: Times: total = 52, boot = -31, init = 83, finish = 0
23/01/17 18:10:17 INFO Executor: Finished task 0.0 in stage 17.0 (TID 17). 1883 bytes result sent to driver
23/01/17 18:11:20 ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM
23/01/17 18:11:20 INFO MemoryStore: MemoryStore cleared
23/01/17 18:11:20 INFO BlockManager: BlockManager stopped
23/01/17 18:11:20 INFO ShutdownHookManager: Shutdown hook called

Para obtener información detallada, consulte la pestaña Jobs (Trabajos) en la sección Web UI (Interfaz de usuario web) de la documentación de Apache Spark.


Información relacionada

Examine the log files (Examinar los archivos de registro)

OFICIAL DE AWS
OFICIAL DE AWSActualizada hace 2 meses