Quiero solucionar los problemas de mi clúster de Amazon Managed Streaming para Apache Kafka (Amazon MSK) que se encuentra en estado CORRECCIÓN DE ESTADO.
Resolución
El clúster de Amazon MSK pasa al estado de corrección de estado cuando el servicio ejecuta una operación interna para solucionar un problema. Por ejemplo, cuando tus agentes no responden y Amazon MSK ejecuta una operación interna para corregir los agentes que no responden.
Puedes seguir utilizando el clúster para producir y consumir datos incluso mientras el clúster esté en estado de corrección de estado. Sin embargo, no puedes realizar operaciones de actualización de la API de Amazon MSK ni de la Interfaz de la línea de comandos de AWS (AWS CLI) en el clúster hasta que vuelva al estado ACTIVO.
Puedes usar las métricas de Amazon CloudWatch para Amazon MSK para ver por qué el clúster se encuentra en estado de CORRECCIÓN DE ESTADO.
Sigue estos pasos:
- Abre la consola de Amazon CloudWatch.
- En el panel de navegación, elige Métricas y, a continuación, Todas las métricas.
- En la pestaña Examinar, elige AWS/Kafka.
- En Métricas, elige Nombre del clúster.
- Selecciona el clúster que desees supervisar.
Nota: Si ves picos en la métrica ActiveControllerCount o OfflinePartitionsCount, significa que uno o más agentes no están en buen estado. Los agentes en mal estado podrían haber provocado que tu clúster pasara a un estado de corrección de estado.
- Para comprobar las métricas de nivel de agente, en Métricas, elige ID de agente y Nombre del clúster.
- En la lista, selecciona las entradas con el nombre del clúster y las métricas CpuUser y CpuSystem.
- Comprueba si la suma de los valores de CpuUser y CpuSystem para todas las entradas alcanza un promedio del 60 % o más para el clúster. Si el promedio es superior al 60 %, es posible que el uso elevado de la CPU haya provocado que el agente entre en estado de corrección de estado. Para más información, consulta Supervisión del uso de CPU.
Un clúster de Amazon MSK también puede entrar en estado de corrección de estado por uno de los siguientes motivos:
- Amazon MSK debe sustituir un nodo o un volumen de Amazon Elastic Block Store (Amazon EBS) debido a un error de hardware.
- Un nodo no cumple el SLA de rendimiento de Amazon MSK para el agente y Amazon MSK debe sustituir el nodo para lograr un rendimiento eficiente.
Amazon MSK es un servicio totalmente administrado, por lo que los agentes disponen de flujos de trabajo autoadministrados que realizan acciones correctivas por sí mismos. Por ejemplo, cuando un volumen de Amazon EBS de un agente deja de estar en buen estado, Amazon MSK observa el estado del volumen durante un periodo de tiempo determinado. Si el volumen se mantiene en buen estado durante este tiempo, AWS MSK no realizará ninguna acción. Si el volumen sigue sin estar en buen estado después de este periodo, Amazon MSK lo reemplaza automáticamente. El clúster pasa al estado CORRECCIÓN DE ESTADO cuando Amazon MSK realiza estas acciones. Sin embargo, el clúster de Amazon MSK está disponible siempre que sigas las prácticas recomendadas.
Tu clúster de Amazon MSK se encuentra en un estado de corrección de estado permanente
La carga de trabajo del clúster es alta
Si la carga de trabajo del clúster es alta y AWS MSK sustituye continuamente los agentes, es posible que el clúster entre en un estado de corrección de estado permanente. Para evitar una gran carga de trabajo en el clúster, no utilices instancias t3.small para alojar clústeres de producción. Si usas instancias m5, asegúrate de elegir el tamaño correcto para tu clúster. Para determinar el tamaño correcto del clúster en función de la carga de trabajo, supervisa el uso de la CPU, el recuento de particiones o el rendimiento.
Además, asegúrate de que la cantidad de particiones por agente no supere el valor recomendado.
El grupo de escalamiento automático no puede llevar una instancia nueva
Si hay un problema interno, como la falta de una dependencia, el grupo de escalamiento automático no puede llevar una instancia nueva y el clúster pasa a un estado de corrección de estado permanente.
Por ejemplo, ya puedes acceder a la clave de AWS Key Management Service (AWS KMS) que especificaste durante la creación del clúster.
Un evento interno afecta a la disponibilidad de la instancia de EC2
El clúster también puede entrar en un estado de corrección de estado permanente por uno de los siguientes motivos:
- Un evento interno afecta a la disponibilidad de las instancias subyacentes de Amazon Elastic Compute Cloud (Amazon EC2).
- Un problema interno provoca incluso la latencia de Amazon EBS en una zona de disponibilidad o región de AWS.
Si tu clúster permanece en un estado de corrección de estado permanente y no es el resultado de cargas de trabajo elevadas, ponte en contacto con AWS Support.
Información relacionada
Descripción de los estados de los clústeres aprovisionados por MSK
Te damos la bienvenida a la Guía para desarrolladores de Amazon MSK
Supervisión de un clúster aprovisionado de Amazon MSK
Prácticas recomendadas para los clientes de Apache Kafka