¿Por qué no se puede escalar mi clúster de EMR aunque haya activado el escalado administrado o se hayan cumplido las métricas de cambio de tamaño?

5 minutos de lectura
0

He activado el escalado administrado o se han cumplido las métricas de cambio de tamaño en mi clúster de Amazon EMR, pero el clúster no se está escalando.

Resolución

Los siguientes son los motivos más comunes por los que es posible que su clúster de EMR no escale aunque el escalado administrado esté activado o se cumplan las métricas de cambio de tamaño:

No se cumplen los umbrales establecidos en las métricas de Amazon CloudWatch para el escalado

El escalado automático depende de las métricas de CloudWatch. Si no se cumplen los umbrales de métricas correspondientes para escalar vertical u horizontalmente, no se realizará el escalado.

Consulte las métricas de Amazon EMR en Amazon CloudWatch para comprobar que se completen las métricas establecidas en las reglas de escalado. Por ejemplo, compruebe que ContainerPendingRatio, YARNMemoryAvailablePercentage, etc., estén completos según lo definido en sus reglas de escalado.

Las siguientes son las razones más comunes por las que las métricas de Amazon EMR no se completan como se esperaba en CloudWatch:

  • El archivo /etc/hadoop/conf/hadoop-metrics2.properties no existe o está dañado. Por ejemplo, es posible que una acción de arranque personalizada haya sobrescrito el archivo.
  • Puede haber problemas con los componentes relacionados con las métricas, como Hadoop, YARN, etc. Revise los registros de la aplicación correspondientes para comprobar si hay errores.
  • Para gestionar el escalado, compruebe que el daemon MetricsCollector esté en ejecución. Para ello, ejecute el comando sudo systemctl status MetricsCollector en el nodo principal.

Está utilizando aplicaciones que no están basadas en YARN

Las aplicaciones como Presto que no se basan en YARN utilizan métodos de escalado basados en las métricas generadas por YARN. Por lo tanto, los clústeres no se escalarán incluso si la utilización de consultas de Presto es alta. Si usa aplicaciones que no están basadas en YARN, use el escalado manual. Por ejemplo, puede configurar la API de cambio de tamaño de Amazon EMR para usar métricas de Presto personalizadas.

Los grupos de instancias principales o de tareas están suspendidos o detenidos

Los grupos de instancias principales o de tareas que están suspendidos o detenidos se bloquean al cambiar el tamaño o la escala. Para conocer los pasos de solución de problemas, consulte Estado suspendido.

Las reconfiguraciones hacen que los grupos de instancias estén en estado detenido. Para obtener más información, consulte Solucionar problemas de reconfiguración de grupos de instancias.

Hay problemas con las aplicaciones HDFS en EMR que causan problemas al escalar los nodos principales

Se recomienda mantener fijos los nodos principales si se cumple lo siguiente:

  • Almacena los datos en buckets de Amazon Simple Storage Service (Amazon S3) y
  • la utilización de HDFS es mínima.

Escale los nodos de tareas únicamente para evitar problemas con HDFS.

Escalar los nodos principales lleva más tiempo que escalar los nodos de tareas. Esto se debe a que los nodos principales tienen un servicio adicional (Datanode) que se utiliza para almacenar los datos de HDFS. El desaprovisionamiento de los datos de HDFS lleva tiempo. Si su caso de uso requiere el escalado de los nodos principales y el escalado está bloqueado, es posible que haya un problema con el desaprovisionamiento de HDFS. Consulte los siguientes elementos para solucionar los problemas de escalado que se han quedado atascados debido al desaprovisionamiento de HDFS:

  • Compruebe el estado de los servicios HDFS (Namenode y Datanode).
  • Compruebe si falta algún bloque, está dañado o no se ha reproducido lo suficiente mediante la ejecución del comando hdfs dfsadmin -report.
  • Compruebe si hay algún nodo principal que no esté en buen estado debido a problemas con el disco, la memoria o la CPU.
  • Determine si el factor de reproducción de HDFS está establecido en un número mayor, como 3 o 2. Si el factor de reproducción se establece en 3 o 2 e intenta desescalar verticalmente los nodos principales a 1, el escalado se bloquea. Esto se debe a que se debe mantener un mínimo de réplicas.

La capacidad solicitada no está disponible en Amazon EMR

Si la capacidad de Amazon Elastic Compute Cloud (Amazon EC2) solicitada no está disponible en Amazon EMR, el escalado fallará una vez transcurrido el periodo de espera. Realice un cambio de tamaño manual si el escalado se detiene durante un periodo prolongado y recibe errores de capacidad insuficiente en los eventos de AWS CloudTrail. Se considera que de 2 a 3 horas es un periodo de tiempo prolongado para que el escalado permanezca estancado.


Información relacionada

Utilice el escalado automático con una política personalizada para los grupos de instancias

Cambiar manualmente el tamaño de un clúster en ejecución

Uso del escalado administrado en Amazon EMR

Los 9 mejores consejos para ajustar el rendimiento de PrestoDB en Amazon EMR

OFICIAL DE AWS
OFICIAL DE AWSActualizada hace un año