Pourquoi ne puis-je pas connecter mon bloc-notes EMR au cluster ?

Lecture de 5 minute(s)
0

Je n'arrive pas à connecter mon bloc-notes Amazon EMR à mon cluster EMR.

Brève description

Lorsque vous connectez un bloc-notes EMR au cluster EMR, vous pouvez recevoir des erreurs ressemblants aux suivantes :

  • Impossible de se connecter au cluster j-XXXXXXXXXXX. Raison : la connexion de l'espace de travail (bloc-notes) a échoué. Erreur interne.
  • L'ordinateur portable n'est pas pris en charge dans la zone de disponibilité sélectionnée. Essayez d'utiliser un cluster dans une autre zone de disponibilité.
  • La connexion de l'espace de travail (bloc-notes) a échoué. Configuration non valide.
  • L'espace de travail (bloc-notes) est arrêté. Le cluster j-XXXXXXXXXX n'a pas d'application JupyterEnterpriseGateway installée. Veuillez réessayer avec un autre cluster.
  • Erreurs liées à l'espace de travail : impossible de connecter le bloc-notes EMR au cluster en cours d'exécution. Erreur lors du démarrage du noyau. HTTP 403 : interdit (l'espace de travail n'est pas rattaché au cluster. Appuyez sur « OK » pour continuer.)

Solution

Vérifier que le cluster connecté est compatible et répond à toutes les exigences du cluster

Les exigences de cluster pour les ordinateurs portables EMR sont les suivantes :

1.    Seuls les clusters créés à l'aide de la version 5.18.0 et ultérieures d'Amazon EMR sont pris en charge.

2.    Les clusters créés à l'aide d'instances Amazon Elastic Compute Cloud (Amazon EC2) dotées de processeurs AMD EPYC ne sont pas pris en charge. Par exemple, les types d'instance m5a.* et r5a.* ne sont pas pris en charge.

3.    Les blocs-notes EMR fonctionnent uniquement avec des clusters créés avec la variable VisibleToAllUsers définie sur true. VisibleToAllUsers est défini sur true par défaut.

4.    Le cluster doit être lancé dans un Amazon Virtual Private Cloud (Amazon VPC) EC2. Les sous-réseaux publics et privés sont pris en charge.

5.    Les blocs-notes EMR ne prennent actuellement en charge que les clusters Apache Spark.

6.    Pour 5.32.0 et les versions ultérieures EMR, ou 6.2.0 et versions ultérieures, votre cluster doit exécuter l'application Jupyter Enterprise Gateway.

7.    Les clusters utilisant l'authentification Kerberos ne sont pas pris en charge.

8.    Les clusters intégrés à AWS Lake Formation prennent uniquement en charge l'installation de bibliothèques destinées aux ordinateurs portables. L'installation de noyaux et de bibliothèques sur le cluster n'est pas prise en charge.

9.    Les clusters comportant plusieurs nœuds primaires ne sont pas pris en charge.

10.    Les clusters utilisant des instances Amazon EC2 basées sur AWS Graviton2 ne sont pas pris en charge.

Pour plus d'informations, consultez Configuration requise pour les clusters.

Erreur : impossible de se connecter au cluster j-XXXXXXXXXXX. Raison : la connexion de l'espace de travail (bloc-notes) a échoué. Erreur interne

Cela se produit sur les clusters EMR lorsque l'emprunt d'identité Apache Livy est activé. Cela signifie que la variable livy.impersonation.enabled est définie sur true. Sur Amazon EMR 6.4.0, l'emprunt d'identité Livy est définie sur true par défaut. La fonctionnalité des blocs-notes EMR avec l'emprunt d'identité d'utilisateur Livy désactivé a également désactivé HttpFS par défaut. Cela signifie que le bloc-notes EMR ne peut pas se connecter à des clusters sur lesquels l'emprunt d'identité Livy est activé. Pour plus d'informations, consultez la version 6.4.0 d'Amazon EMR.

Pour éviter ce problème, procédez comme suit :

Vous pouvez utiliser n'importe quelle version plus ancienne ou plus récente d'EMR 6.4.0 sur laquelle le service hadoop-httpfs est en cours d'exécution.

-ou-

Redémarrez le service hadoop-httpfs sur le cluster en procédant comme suit :

1.    Utilisez SSH pour vous connecter au nœud primaire EMR.

2.    Exécutez la commande suivante pour démarrer le service hadoop-httpfs :

sudo systemctl start hadoop-httpfs

Vous pouvez également démarrer le service hadoop-httpfs à l'aide d'une étape EMR :

==========
JAR location: command-runner.jar
Main class: None
Arguments: bash -c "sudo systemctl start hadoop-httpfs"
Action on failure: Continue
==========

Exécutez la commande suivante pour vérifier l'état de HttpFS :

$ sudo systemctl status hadoop-httpfs
  hadoop-httpfs.service - Hadoop httpfs
   Loaded: loaded (/etc/systemd/system/hadoop-httpfs.service; disabled; vendor preset: disabled)
   Active: active (running)...

3.    Reconnectez le cluster EMR.

Erreur : erreurs dans l'espace de travail

Les erreurs d'espace de travail les plus courantes lorsque vous essayez de connecter votre cluster EMR à un bloc-notes EMR sont les suivantes :

  • Impossible de connecter le bloc-notes EMR au cluster en cours d'exécution.
  • Erreur lors du démarrage du noyau.
  • HTTP 403 : interdit (l'espace de travail n'est pas rattaché au cluster. Appuyez sur « OK » pour continuer.)

Ces erreurs se produisent parce que le compte root AWS n'est pas autorisé à associer des blocs-notes EMR à des clusters EMR. L'utilisateur root est considéré comme un utilisateur non autorisé à démarrer des noyaux. Si la valeur de KERNEL_USERNAME apparaît dans la liste unauthorized_users (utilisateurs non autorisés), la demande de connexion échoue. Pour en savoir plus, consultez la section Fonctionnalités de sécurité.

Pour éviter les erreurs d'espace de travail, créez un utilisateur AWS Identity and Access Manager (AWS IAM), puis associez le cluster au bloc-notes. Pour plus d'informations, consultez Création d'un utilisateur IAM sur votre compte AWS.


AWS OFFICIEL
AWS OFFICIELA mis à jour il y a un an