Wie kann ich Fehler bei Knotenlabels und YARN ResourceManager in Amazon EMR beheben?

Lesedauer: 2 Minute
0

Ich habe Knotenlabels in einem Amazon EMR-Cluster aktiviert. Dann ist YARN ResourceManager fehlgeschlagen.

Kurzbeschreibung

Dieses Problem betrifft die Amazon EMR-Release-Versionen 5.19.0 bis 5.21.0. In diesen Versionen speichert Amazon EMR Knotenlabeldateien in HDFS:

  • DEFAULT_DIR_NAME = "node-labels"
  • MIRROR_FILENAME = "nodelabel.mirror"
  • EDITLOG_FILENAME = "nodelabel.editlog"

Amazon EMR speichert diese Dateien am folgenden Speicherort in yarn-site.xml auf allen Knoten: yarn.node-labels.fs-store.root-dir: '/apps/yarn/nodelabels'. Das Problem tritt auf, wenn diese Dateien beschädigt werden, wenn Sie während einer Größenänderung alle Knoten verlieren, die die Blöcke der Datei enthalten. ResourceManager wird dann neu gestartet, bleibt in einer Neustartschleife hängen, und dann löst CommonNodeLabelsManager eine Ausnahme.

Um die Ausnahme zu finden, suchen Sie nach „org.apache.hadoop.yarn.NodeLabels.CommonNodeLabelsManager“ in /var/log/hadoop-yarn/yarn-resourcemanager-*.log.

Um diesen Fehler zu beheben, löschen Sie die Knotenlabel-Dateien. Starten Sie dann ResourceManager neu, um die Dateien neu zu erstellen.

Behebung

1.Überprüfen Sie den Zustand des Dateisystems und suchen Sie die Blöcke:

hdfs fsck /apps/yarn/nodelabels/ -locations -blocks -files

2.Entfernen Sie die Dateien:

hdfs dfs -rm -skipTrash /apps/yarn/nodelabels/*

3.Starten Sie ResourceManager neu:

sudo stop hadoop-yarn-resourcemanager
sudo start hadoop-yarn-resourcemanager

4.Wenn ResourceManager neu gestartet wird, werden die Knotenlabel-Dateien neu erstellt. Dadurch wird die Neustartschleife aufgelöst. Sie können jedoch noch keine YARN-Bewerbungen einreichen. Bevor Sie YARN-Bewerbungen einreichen können, fügen Sie manuell Knotenlabel-Einträge hinzu:

yarn rmadmin -addToClusterNodeLabels "CORE(exclusive=false)"

5.Listen Sie die Labels auf, um zu bestätigen, dass ResourceManager sie neu erstellt hat:

yarn cluster --list-node-labels

Verwandte Informationen

Verstehen Sie die Knotentypen: Master-, Core- und Task-Knoten

AWS OFFICIAL
AWS OFFICIALAktualisiert vor 2 Jahren