Warum kann ich mein EMR-Notebook nicht mit dem Cluster verbinden?

Lesedauer: 4 Minute
0

Ich kann mein Amazon-EMR-Notebook nicht mit meinem EMR-Cluster verbinden.

Kurzbeschreibung

Wenn Sie ein EMR-Notebook mit dem EMR-Cluster verbinden, erhalten Sie möglicherweise ähnliche Fehler wie die folgenden:

  • Verbindung zum Cluster j-XXXXXXXXXXX nicht möglich. Grund: Das Anhängen des Arbeitsbereichs (Notebook) ist fehlgeschlagen. Interner Fehler.
  • Notebook wird in der ausgewählten Availability Zone nicht unterstützt. Bitte versuchen Sie, einen Cluster in einer anderen Availability Zone zu verwenden.
  • Das Anhängen des Arbeitsbereichs (Notebook) ist fehlgeschlagen. Ungültige Konfiguration.
  • Workspace (Notebook) ist gestoppt. Auf Cluster j-XXXXXXXXXX ist die JupyterEnterpriseGateway-Anwendung nicht installiert. Bitte versuchen Sie es erneut mit einem anderen Cluster.
  • Workspace-Fehler: Das EMR-Notebook kann nicht an den laufenden Cluster angeschlossen werden. Fehler beim Starten des Kernels. HTTP 403: Verboten (Workspace ist nicht an den Cluster angehängt. Klicken Sie auf „OK“, um fortzufahren.)

Lösung

Stellen Sie sicher, dass der angehängte Cluster kompatibel ist und alle Cluster-Anforderungen erfüllt werden

Die Cluster-Anforderungen für EMR-Notebooks lauten wie folgt:

1.    Es werden nur Cluster unterstützt, die mit der Amazon-EMR-Version 5.18.0 und höher erstellt wurden.

2.    Cluster, die mit Amazon-Elastic-Compute-Cloud-Instances (Amazon EC2) mit AMD-EPYC-Prozessoren erstellt wurden, werden nicht unterstützt. Beispielsweise werden die Instancetypen m5a.* und r5a.* nicht unterstützt.

3.    EMR-Notebooks funktionieren nur mit Clustern, die mit der Variablen VisibleToAllUsers auf wahr festgelegt wurden. VisibleToAllUsers ist standardmäßig auf wahr festgelegt.

4.    Der Cluster muss in einer EC2 Amazon Virtual Private Cloud (Amazon VPC) gestartet werden. Öffentliche und private Subnetze werden unterstützt.

5.    EMR-Notebooks unterstützen derzeit nur Apache-Spark-Cluster.

6.    Für die EMR-Releaseversionen 5.32.0 und höher oder 6.2.0 und höher muss auf Ihrem Cluster die Jupyter-Enterprise-Gateway-Anwendung ausgeführt werden.

7.    Cluster, die die Kerberos-Authentifizierung verwenden, werden nicht unterstützt.

8.    In AWS Lake Formation integrierte Cluster unterstützen nur die Installation von Bibliotheken für Notebooks. Die Installation von Kerneln und Bibliotheken auf dem Cluster wird nicht unterstützt.

9.    Cluster mit mehreren Primärknoten werden nicht unterstützt.

10.    Cluster, die Amazon-EC2-Instances verwenden, die auf AWS Graviton2 basieren, werden nicht unterstützt.

Weitere Informationen finden Sie unter Cluster-Anforderungen.

Fehler: Eine Verbindung zum Cluster j-XXXXXXXXXXX konnte nicht hergestellt werden. Grund: Das Anhängen des Arbeitsbereichs (Notebook) ist fehlgeschlagen. Interner Fehler

Dies tritt auf EMR-Clustern auf, bei denen der Apache-Livy-Identitätswechsel aktiviert ist. Das bedeutet, dass die Variable livy.impersonation.enabled auf wahr festgelegt ist. In Amazon EMR 6.4.0 ist der Livy-Identitätswechsel standardmäßig auf wahr festgelegt. Bei der EMR-Notebook-Funktion mit deaktiviertem Livy-Benutzerwechsel sind HttpFS standardmäßig ebenfalls deaktiviert. Das bedeutet, dass das EMR-Notebook keine Verbindung zu Clustern herstellen kann, für die der Livy-Identitätswechsel aktiviert ist. Weitere Informationen finden Sie unter Amazon-EMR-Version 6.4.0.

Gehen Sie wie folgt vor, um dieses Problem zu vermeiden:

Sie können jede ältere Version oder neuere Version von EMR 6.4.0 verwenden, in der der **hadoop-httpfs-**Service ausgeführt wird.

-oder-

Starten Sie den **hadoop-httpfs-**Service auf dem Cluster neu, indem Sie wie folgt vorgehen:

1.    Verwenden Sie SSH, um eine Verbindung zum EMR-Primärknoten herzustellen.

2.    Führen Sie den folgenden Befehl aus, um den **hadoop-httpfs-**Service zu starten:

sudo systemctl start hadoop-httpfs

Oder Sie können den **hadoop-HTTPFS-**Service mit einem EMR-Schritt starten:

==========
JAR location: command-runner.jar
Main class: None
Arguments: bash -c "sudo systemctl start hadoop-httpfs"
Action on failure: Continue
==========

Führen Sie den folgenden Befehl aus, um den Status von HttpFS zu überprüfen:

$ sudo systemctl status hadoop-httpfs
  hadoop-httpfs.service - Hadoop httpfs
   Loaded: loaded (/etc/systemd/system/hadoop-httpfs.service; disabled; vendor preset: disabled)
   Active: active (running)...

3.    Schließen Sie den EMR-Cluster erneut an.

Fehler: Workspace-Fehler

Die folgenden Workspace-Fehler treten häufig auf, wenn Sie versuchen, Ihren EMR-Cluster mit einem EMR-Notebook zu verbinden:

  • Das EMR-Notebook kann nicht an den laufenden Cluster angeschlossen werden.
  • Fehler beim Starten des Kernels.
  • HTTP 403: Verboten (Workspace ist nicht an den Cluster angehängt. Wählen Sie „Ok“ aus, um fortzufahren.)

Diese Fehler treten auf, weil das AWS-Root-Konto nicht autorisiert ist, EMR-Notebooks an EMR-Cluster anzuhängen. Der Root-Benutzer gilt als nicht autorisierter Benutzer, um Kernel zu starten. Wenn der Wert von KERNEL_USERNAME in der Liste unauthorized_users erscheint, schlägt die Verbindungsanfrage fehl. Weitere Informationen finden Sie unter Sicherheitsfunktionen.

Um Workspace-Fehler zu vermeiden, erstellen Sie einen AWS-Identity-and-Access-Manager-Benutzer (AWS IAM) und hängen Sie dann den Cluster an das Notebook an. Weitere Informationen finden Sie unter Erstellen eines IAM-Benutzers in Ihrem AWS-Konto.


AWS OFFICIAL
AWS OFFICIALAktualisiert vor einem Jahr