Je souhaite consulter les interfaces utilisateur Web d'Apache Spark hébergées par mes clusters Amazon EMR.
Résolution
Le serveur d’historique Spark est une interface utilisateur Web qui vous permet de consulter le statut des tâches Spark en cours et terminées sur votre cluster Amazon EMR.
Pour accéder à l'interface utilisateur de Spark hébergée dans un sous-réseau public ou privé, utilisez des interfaces utilisateur d'application persistantes ou des interfaces utilisateur d'applications intégrées au cluster.
Interfaces utilisateur d’application persistantes
Dans votre cluster Amazon EMR, le démon apppusher envoie régulièrement des journaux d'événements Spark aux compartiments de production Amazon EMR. L'interface utilisateur persistante de Spark utilise les journaux d'événements pour afficher les applications Spark.
Cette caractéristique fonctionne lorsque le répertoire de journaux d’événements de l'application se trouve dans un système de fichiers distribué Hadoop (HDFS). Par défaut, Amazon EMR stocke les journaux d'événements dans le répertoire /var/log/spark/apps de HDFS. Si vous remplacez le répertoire par défaut par un autre système de fichiers, tel qu'Amazon Simple Storage Service (Amazon S3), cette fonctionnalité est inopérante. Pour plus d’informations, consultez la section Considérations et limites.
Vous pouvez accéder à l'historique de l’application et aux fichiers journaux pertinents pour les clusters actifs et fermés. Les journaux sont disponibles pendant 30 jours après la fin de l'application. Pour en savoir plus, consultez la section Afficher les interfaces utilisateur d’application persistantes dans Amazon EMR.
Interfaces utilisateur d’application intégrées au cluster
Le nœud principal héberge les interfaces utilisateur du cluster et vous avez besoin d'une connexion SSH pour accéder au serveur Web.
Pour accéder à l'interface utilisateur du cluster, procédez comme suit :
- Utilisez SSH pour vous connecter au nœud primaire.
- Configurez le tunneling SSH avec la redirection de port dynamique.
- Configurez votre navigateur Internet pour utiliser un module complémentaire tel que FoxyProxy pour Firefox ou SwitchyOmega pour Chrome afin de gérer les paramètres de votre proxy SOCKS.
Remarque : Cette méthode filtre automatiquement les URL en fonction de modèles de texte. En outre, cette méthode limite les paramètres du proxy aux domaines qui correspondent à la forme du nom DNS du nœud primaire.
Une interface utilisateur intégrée au cluster dans un sous-réseau privé n'est pas directement accessible, sauf si vous utilisez un réseau local via une connexion VPN ou AWS Direct Connect. De plus, vous devez configurer l’itinéraire de manière que la communication s'étende sur les réseaux AWS et locaux.
Vous pouvez également utiliser un serveur bastion ou intermédiaire hébergé dans un sous-réseau public pour vous connecter à un sous-réseau privé. Puis, créez un tunnel SSH avec la redirection de port dynamique. Pour plus d'informations, consultez la section Accès sécurisé aux interfaces Web sur Amazon EMR lancées dans un sous-réseau privé.