Comment accéder à l'interface utilisateur Spark dans Amazon EMR ?

Lecture de 3 minute(s)
0

Je souhaite consulter les interfaces Web Apache Spark hébergées sur des clusters Amazon EMR.

Résolution

Le Spark History Server (serveur d'historique Spark) est une interface utilisateur Web qui vous permet de consulter l'état des tâches Spark en cours et terminées sur votre cluster EMR.

Les méthodes les plus courantes pour accéder à l'interface utilisateur Spark hébergée dans un sous-réseau public et privé sont les suivantes :

  • Interfaces utilisateur persistantes des applications
  • Interfaces utilisateur d'applications intégrées au cluster

Interfaces utilisateur persistantes des applications

Dans votre cluster EMR, le démon apppusher envoie régulièrement des journaux d'événements Spark aux compartiments de production Amazon EMR. L'interface utilisateur persistante de Spark utilise les journaux d'événements pour afficher les applications Spark.

Cette fonctionnalité fonctionne lorsque le répertoire du journal des événements de l'application se trouve dans HDFS. Par défaut, Amazon EMR stocke les journaux des événements dans le répertoire /var/log/spark/apps de HDFS. Si vous remplacez le répertoire par défaut par un autre système de fichiers, tel qu'Amazon Simple Storage Service (Amazon S3), cette fonctionnalité ne fonctionnera pas. Pour plus d'informations, consultez la section Considérations et limitations.

Vous pouvez accéder à l'historique des applications et aux fichiers journaux pertinents pour les clusters actifs et fermés. Les journaux sont disponibles pendant 30 jours après la fermeture de l'application. Pour plus d'informations, consultez la documentation Interfaces utilisateur persistantes des applications.

Interfaces utilisateur d'applications intégrées au cluster

Les interfaces utilisateur intégrées au cluster sont hébergées sur le nœud primaire et nécessitent une connexion SSH au serveur Web.

Pour accéder à l'interface utilisateur intégrée au cluster, procédez comme suit :

1.    Connectez-vous au nœud principal via SSH.

2.    Configurez le tunnel SSH avec le transfert de port dynamique.

3.    Configurez votre navigateur Internet pour utiliser un module complémentaire tel que FoxyProxy pour Firefox ou SwitchyOmega pour Chrome afin de gérer les paramètres de votre proxy SOCKS.

Cette méthode filtre automatiquement les URL en fonction de modèles de texte. Elle limite également les paramètres du proxy aux domaines qui correspondent à la forme du nom DNS du nœud primaire.

ssh -i ~/mykeypair.pem -N -L 8157:ec2-###-##-##-###.compute-1.amazonaws.com:18080 hadoop@ec2-###-##-##-###.compute-1.amazonaws.com

Pour plus d'informations, consultez Option 1 : configurer un tunnel SSH vers le nœud primaire à l'aide du transfert de port local.

Une interface utilisateur sur un cluster dans un sous-réseau privé n'est pas directement accessible, sauf si vous utilisez un réseau local via une connexion VPN ou AWS Direct Connect. Vous devez également configurer la route de manière à ce que la communication s'étende à travers AWS et les réseaux locaux.

Vous pouvez également vous connecter à un sous-réseau privé à l'aide d'un serveur Bastion ou Jump hébergé dans un sous-réseau public. Créez ensuite un tunnel SSH avec un transfert de port dynamique.

Pour plus d'informations, consultez Accès sécurisé aux interfaces Web sur Amazon EMR lancées dans un sous-réseau privé.


AWS OFFICIEL
AWS OFFICIELA mis à jour il y a un an