Wie kann ich „Ausgangsstatus: -100“ lösen. Diagnosen: Fehler bei der Veröffentlichung eines Containers auf einem „*verloren* Knoten“ in Amazon EMR?

Lesedauer: 3 Minute
0

Mein Amazon EMR-Job schlägt fehl und es wird eine Fehlermeldung ähnlich der folgenden angezeigt: ExecutorLostFailure (Executor 12 wurde aufgrund einer der laufenden Aufgaben beendet) Grund: Als ausgefallen markierter Container: container_1572839353552_0008_01_000002 auf dem Host: ip-xx-xxx-xx-xx Exit-Status: -100. Diagnosen: Container auf einem lost Knoten veröffentlicht

Kurzbeschreibung

Dieser Fehler tritt häufig in einer der folgenden Situationen auf:

  • Ein Core- oder Taskknoten wird aufgrund der hohen Speicherplatzauslastung beendet.
  • Ein Knoten reagiert aufgrund einer anhaltend hohen CPU-Auslastung oder eines zu geringen verfügbaren Speichers nicht mehr.

Dieser Artikel konzentriert sich auf Probleme mit dem Speicherplatz.

Wenn die Festplattenauslastung auf einer Core- oder Taskknotenfestplatte (z. B. /mnt oder /mnt1) 90% übersteigt, wird die Festplatte als fehlerhaft eingestuft. Wenn weniger als 25% der Festplatten eines Knotens fehlerfrei sind, nimmt YARN ResourceManager den Knoten ordnungsgemäß außer Betrieb. Um dieses Problem zu lösen, fügen Sie dem EMR-Cluster mehr Amazon Elastic Block Store (Amazon EBS) -Kapazität hinzu. Sie können dies tun, wenn Sie einen neuen Cluster starten oder indem Sie einen laufenden Cluster ändern.

Behebung

Ermitteln Sie die Grundursache

Um die Ursache des Fehlers zu ermitteln, überprüfen Sie die folgenden Amazon CloudWatch-Metriken für den EMR-Cluster:

  • Ungesunde MR-Knoten: Wenn diese Metrik einen fehlerhaften Knoten anzeigt, wird das Problem durch einen Mangel an Speicherplatz verursacht.
  • MR hat Knoten verloren: Wenn diese Metrik einen ausgefallenen Knoten anzeigt, bedeutet dies, dass ein Knoten aufgrund eines Hardwarefehlers verloren gegangen ist oder dass der Knoten aufgrund einer hohen CPU- oder Speicherauslastung nicht erreicht werden konnte.

Verwenden Sie eine der folgenden Optionen, um Fehler beim Verlust von Knoten zu beheben, die auf einen Mangel an Speicherplatz zurückzuführen sind.

Neue Cluster: Mehr EBS-Kapazität hinzufügen

Um beim Start eines EMR-Clusters mehr EBS-Kapazität hinzuzufügen, wählen Sie einen größeren Amazon Elastic Compute Cloud (Amazon EC2) Instance-Typ. Größere EC2-Instances beinhalten mehr EBS-Speicherkapazität. Weitere Informationen finden Sie unter Standard-EBS-Speicher für Instances. (Sie können auch die Volume-Größe ändern oder weitere Volumes hinzufügen, wenn Sie den Cluster erstellen, unabhängig vom ausgewählten Instance-Typ.)

Neue oder laufende Cluster: Weitere Core- oder Task-Nodes hinzufügen

Cluster ausführen: Weitere EBS-Volumes hinzufügen

Gehen Sie wie folgt vor, um weitere EBS-Volumes an einen laufenden Cluster anzuhängen:

1.    Wenn größere EBS-Volumes das Problem nicht lösen, fügen Sie weitere EBS-Volumes an die Core- und Taskknoten an.

  1. Formatieren und mounten Sie die angehängten Volumes. Achten Sie darauf, die richtige Festplattennummer zu verwenden (z. B. /mnt1 oder /mnt2 statt /data).

3.    Stellen Sie über SSH eine Verbindung zum Knoten her.

4.    Fügen Sie den Pfad /mnt1/yarn in die Eigenschaft yarn.nodemanager.local-dirs von /etc/hadoop/conf/yarn-site.xml ein. Beispiel:

<property>
    <name>yarn.nodemanager.local-dirs</name>
    <value>/mnt/yarn,/mnt1/yarn</value>
</property>

5.    Starten Sie den NodeManager-Dienst neu:

sudo stop hadoop-yarn-nodemanager
sudo start hadoop-yarn-nodemanager

6.    Aktivieren Sie den Terminierungsschutz.

Wenn Sie immer noch Probleme mit dem Speicherplatz haben, versuchen Sie Folgendes:

  • Entfernen Sie nicht benötigte Dateien.
  • Erhöhen Sie den Schwellenwert für die Festplattenauslastung von 90% auf 99%. Ändern Sie dazu die Eigenschaft yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage in yarn-default.xml auf allen Knoten. Starten Sie dann den ****Hadoop-yarn-nodemanager-Dienst neu.

Ähnliche Informationen

Der Cluster endet mit NO_SLAVE_LEFT und die Core-Knoten FAILED_BY_MASTER

Warum geht dem Kernknoten in meinem Amazon EMR-Cluster der Speicherplatz aus?

AWS OFFICIAL
AWS OFFICIALAktualisiert vor 3 Jahren