¿Por qué mi clúster de Amazon MSK pasa al estado CORRECCIÓN DE ESTADO?

4 minutos de lectura
0

Quiero solucionar los problemas de mi clúster de Amazon Managed Streaming para Apache Kafka (Amazon MSK) que se encuentra en estado CORRECCIÓN DE ESTADO.

Resolución

Su clúster de Amazon MSK pasa al estado CORRECCIÓN DE ESTADO cuando el servicio ejecuta una operación interna para solucionar un problema (por ejemplo, los agentes no responden). Sin embargo, puede utilizar el clúster para producir y consumir datos. No puede realizar operaciones de actualización de la API de Amazon MSK ni de la Interfaz de la línea de comandos de AWS (AWS CLI) en el clúster hasta que vuelva al estado ACTIVO.

Utilice las métricas de Amazon CloudWatch para Amazon MSK para ver por qué el clúster se encuentra en estado CORRECCIÓN DE ESTADO:

  1. Abra la consola de CloudWatch.
  2. En el panel de navegación, elija Métricas y, a continuación, elija Todas las métricas.
  3. En la pestaña Examinar, elija AWS/Kafka.
  4. En Métricas, elija Nombre del clúster.
  5. Seleccione el clúster que desee supervisar.
    Si ve picos en la métrica ActiveControllerCount o OfflinePartitionsCount, significa que uno o más agentes no están en buen estado. Esto podría haber provocado que el clúster pasara al estado CORRECCIÓN DE ESTADO.
  6. En el caso de las métricas de nivel de agente, elija ID de agente, nombre del clúster en Métricas.
  7. En la lista, seleccione las entradas con el nombre del clúster y las métricas CpuUser y CpuSystem. Compruebe si la suma de estos dos valores para todas las entradas alcanza un promedio superior al 60 % para el clúster. Si es así, el uso elevado de la CPU podría haber provocado que el agente pasara al estado CORRECCIÓN DE ESTADO. Para obtener más información sobre la supervisión del uso de la CPU, consulte  Prácticas recomendadas: supervisión del uso de la CPU.

A continuación, se indican los motivos más comunes por los que un clúster de Amazon MSK pasa al estado CORRECCIÓN DE ESTADO:

  • Un nodo o un volumen de Amazon Elastic Block Store (Amazon EBS) se debe reemplazar debido a un error de hardware.
  • Un nodo no cumple con el SLA de rendimiento de Amazon MSK para el agente y debe reemplazarse para obtener un rendimiento óptimo.

Tenga en cuenta que Amazon MSK es un servicio totalmente administrado. Por lo tanto, los agentes tienen flujos de trabajo autoadministrados que realizan acciones correctivas por sí mismos, como reemplazar los nodos en situaciones de error. Cuando un volumen de Amazon EBS de un agente deja de estar en buen estado, Amazon MSK observa el estado del volumen durante un periodo de tiempo determinado. Si el volumen se recupera durante este tiempo, no se realiza ninguna acción. Si el volumen sigue sin estar en buen estado después de este periodo, Amazon MSK lo reemplaza automáticamente. El clúster pasa al estado CORRECCIÓN DE ESTADO cuando Amazon MSK realiza estas acciones. Sin embargo, esto no afecta a la disponibilidad del clúster de Amazon MSK, siempre y cuando siga las prácticas recomendadas. Incluso cuando el agente se encuentra en estado CORRECCIÓN DE ESTADO, el clúster puede gestionar las solicitudes de los productores y los consumidores.

En raras ocasiones, el clúster puede pasar a un estado CORRECCIÓN DE ESTADO perpetuo. Esto puede deberse a las siguientes razones:

  • La carga de trabajo del clúster es alta y los agentes se reemplazan continuamente. Para evitar este problema, se recomienda no utilizar instancias t3.small para alojar clústeres de producción. Si utiliza instancias m5, asegúrese de elegir el tamaño correcto para el clúster. Puede determinar el tamaño del clúster en función de su carga de trabajo y supervisando el uso de la CPU. Además, asegúrese de que la cantidad de particiones por agente no supere el valor recomendado.
  • El grupo de escalamiento automático no puede lanzar una nueva instancia. Esto puede ocurrir debido a un problema interno o a la falta de una dependencia. Por ejemplo, es posible que ya no se pueda acceder a la clave de AWS Key Management Service (AWS KMS) que se especificó durante la creación del clúster.
  • Un evento interno poco frecuente afectó a la disponibilidad de las instancias subyacentes de Amazon Elastic Compute Cloud (Amazon EC2) o provocó latencia de Amazon EBS en una zona de disponibilidad o región de AWS.

Si el clúster permanece en estado CORRECCIÓN DE ESTADO permanente sin que se deba a la carga, póngase en contacto con AWS Support.

Información relacionada

Estados del clúster

OFICIAL DE AWS
OFICIAL DE AWSActualizada hace un año