Saltar al contenido

¿Cómo accedo a la interfaz de usuario de Spark en Amazon EMR?

3 minutos de lectura
0

Quiero ver las interfaces de usuario web de Apache Spark que alojan mis clústeres de Amazon EMR.

Resolución

El servidor de historial de Spark es una interfaz de usuario web en la que puedes ver el estado de los trabajos de Spark en ejecución y finalizados en tu clúster de Amazon EMR.

Para acceder a la interfaz de usuario de Spark alojada en una subred pública o privada, utiliza interfaces de usuario de aplicaciones persistentes o de aplicaciones en clúster.

Interfaces de usuario de aplicaciones persistentes

En tu clúster de Amazon EMR, el daemon apppusher envía periódicamente registros de eventos de Spark a los buckets de producción de Amazon EMR. La interfaz de usuario persistente de Spark usa los registros de eventos para mostrar las aplicaciones de Spark.

Esta característica funciona cuando el directorio de registro de eventos de la aplicación está en un sistema de archivos distribuido de Hadoop (HDFS). De forma predeterminada, Amazon EMR almacena los registros de eventos en el directorio /var/log/spark/apps de HDFS. Si cambias el directorio predeterminado a un sistema de archivos diferente, como Amazon Simple Storage Service (Amazon S3), esta característica no funcionará. Para más información, consulta Condiciones y limitaciones.

Puedes acceder al historial de aplicaciones y a los archivos de registro pertinentes de los clústeres activos y finalizados. Los registros están disponibles durante 30 días después de que finalice la aplicación. Para más información, consulta Visualización de interfaces de usuario de aplicaciones persistentes en Amazon EMR.

Interfaces de usuario de aplicaciones en clúster

El nodo principal aloja las interfaces de usuario en clúster y es necesario tener una conexión SSH para acceder al servidor web.

Para acceder a la interfaz de usuario en clúster, completa los pasos siguientes:

  1. Usa SSH para conectarte al nodo principal.
  2. Configura la tunelización de SSH con el reenvío dinámico de puertos.
  3. Configura tu navegador de Internet para usar un complemento como FoxyProxy para Firefox o SwitchyOmega para Chrome y así poder administrar la configuración de proxy SOCKS.
    Nota: Este método filtra automáticamente las URL en función de los patrones de texto. Además, este método limita la configuración del proxy a los dominios que coinciden con la forma del nombre DNS del nodo principal.

No se puede acceder directamente a una interfaz de usuario en clúster que esté en una subred privada, a menos que utilices una red local mediante una conexión VPN o AWS Direct Connect. Además, debes configurar la ruta para que la comunicación abarque las redes locales y de AWS.

O bien, puedes usar un servidor bastión o de salto que esté alojado en una subred pública para conectarte a una subred privada. Luego, puedes crear una tunelización de SSH mediante el reenvío dinámico de puertos. Para más información, consulta Securely access web interfaces on Amazon EMR launched in a private subnet (Acceso seguro a interfaces web de Amazon EMR lanzadas en una subred privada).

OFICIAL DE AWSActualizada hace 8 meses