Desidero visualizzare le interfacce utente web di Apache Spark ospitate dai miei cluster Amazon EMR.
Risoluzione
Spark History Server è un'interfaccia utente web in cui puoi visualizzare lo stato dei processi Spark in esecuzione e completati nel cluster Amazon EMR.
Per accedere all'interfaccia utente di Spark ospitata in una sottorete pubblica o privata, utilizza interfacce utente delle applicazioni persistenti o interfacce utente delle applicazioni su cluster.
Interfacce utente delle applicazioni persistenti
Nel cluster Amazon EMR, il daemon apppusher invia periodicamente i log degli eventi di Spark ai bucket di produzione di Amazon EMR. L'interfaccia utente persistente di Spark utilizza i log degli eventi per mostrare le applicazioni Spark.
Questa funzionalità è utilizzabile quando la directory dei log degli eventi dell'applicazione si trova in un file system distribuito Hadoop (HDFS). Per impostazione predefinita, Amazon EMR archivia i log degli eventi nella directory /var/log/spark/apps di HDFS. Se modifichi la directory predefinita con un file system diverso, ad esempio Amazon Simple Storage Service (Amazon S3), questa funzionalità non è utilizzabile. Per ulteriori informazioni, consulta Considerazioni e limitazioni.
Puoi accedere alla cronologia dell'applicazione e ai file di log pertinenti per i cluster attivi e terminati. I log sono disponibili per 30 giorni dopo la fine dell'applicazione. Per ulteriori informazioni, consulta la sezione Visualizza le interfacce utente persistenti delle applicazioni in Amazon EMR.
Interfacce utente delle applicazioni su cluster
Il nodo primario ospita le interfacce utente su cluster e per accedere al server web hai bisogno una connessione SSH.
Per accedere all'interfaccia utente su cluster, completa i seguenti passaggi:
- Utilizza SSH per connetterti al nodo primario.
- Configura il tunneling SSH con il port forwarding dinamico.
- Configura il browser Internet in modo da utilizzare un componente aggiuntivo come FoxyProxy per Firefox o SwitchyOmega per Chrome per gestire le impostazioni del proxy SOCKS.
Nota: questo metodo filtra automaticamente gli URL in base a modelli di testo. Inoltre, il metodo limita le impostazioni del proxy ai domini che corrispondono alla forma del nome DNS del nodo primario.
Un'interfaccia utente su cluster in una sottorete privata non è direttamente accessibile a meno che non si utilizzi una rete locale tramite una connessione VPN o AWS Direct Connect. Inoltre, devi configurare la route in modo che la comunicazione si estenda ad AWS e alle reti locali.
In alternativa, puoi utilizzare un bastione o un jump server ospitato in una sottorete pubblica per connetterti a una sottorete privata. Quindi crea un tunneling SSH con port forwarding dinamico.Per ulteriori informazioni, consulta Securely Access Web Interfaces on Amazon EMR Launched in a Private Subnet (Accesso sicuro alle interfacce web in Amazon EMR avviate in una sottorete privata).