Por que meu cluster Amazon MSK está entrando no estado CORREÇÃO?

4 minuto de leitura
0

Quero solucionar problemas com meu cluster Amazon Managed Streaming for Apache Kafka (Amazon MSK) que está no estado CORREÇÃO.

Resolução

Seu cluster Amazon MSK entra no estado CORREÇÃO quando o serviço está executando uma operação interna para resolver um problema (exemplo: os corretores não respondem). No entanto, você pode usar o cluster para produzir e consumir dados. Você não pode realizar operações de atualização da API Amazon MSK ou da AWS Command Line Interface (AWS CLI) no cluster até que ele retorne ao estado ATIVO.

Use as métricas do Amazon CloudWatch para o Amazon MSK para ver por que o cluster está no estado CORREÇÃO:

  1. Abra o console do CloudWatch.
  2. No painel de navegação, escolha Métricas e, em seguida, escolha Todas as métricas.
  3. Na guia Procurar, escolha AWS/Kafka.
  4. Em Métricas, escolha Nome do cluster.
  5. Selecione o cluster que você deseja monitorar.
    Se você observar picos na métrica ActiveControllerCount ou OfflinePartitionsCount, eles indicam que um ou mais corretores não estão íntegros. Isso pode ter feito seu cluster entrar no estado CORREÇÃO.
  6. Para métricas em nível de corretor, escolha ID do agente, Nome do cluster em Métricas.
  7. Na lista, selecione as entradas com o nome do cluster e as métricas CpuUser e CpuSystem. Verifique se a soma desses dois valores para todas as entradas atinge uma média superior a 60% para o cluster. Nesse caso, a alta utilização da CPU pode ter feito com que o corretor entrasse no estado CORREÇÃO. Para obter mais informações sobre o monitoramento do uso da CPU, consulte Práticas recomendadas - Monitorar o uso da CPU.

A seguir estão os motivos comuns para um cluster do Amazon MSK entrar no estado CORREÇÃO:

  • Um nó ou um volume do Amazon Elastic Block Store (Amazon EBS) deve ser substituído devido a uma falha de hardware.
  • Um nó não atende ao SLA de desempenho do Amazon MSK para o corretor, e o nó deve ser substituído para obter o desempenho ideal.

Observe que o Amazon MSK é um serviço totalmente gerenciado. Portanto, os corretores têm fluxos de trabalho autogerenciados que realizam ações corretivas por si mesmos, como substituir nós em situações de falha. Quando um volume do Amazon EBS em uma corretora se torna inativo, o Amazon MSK observa o estado do volume por um determinado período de tempo. Se o volume ficar bom durante esse período, nenhuma ação será executada. Se o volume continuar ruim após esse período, o Amazon MSK substituirá automaticamente esse volume. O cluster entra no estado CORREÇÃO quando o Amazon MSK executa essas ações. No entanto, isso não afeta a disponibilidade do cluster Amazon MSK, desde que você siga as melhores práticas. Mesmo quando o corretor está no estado CORREÇÃO, o cluster pode lidar com solicitações de produtores e consumidores.

É raro, mas seu cluster pode entrar em um estado perpétuo de CORREÇÃO. Isso pode ser causado pelos seguintes motivos:

  • A carga de trabalho no cluster é alta e os corretores estão sendo substituídos continuamente. Para evitar esse problema, é uma prática recomendada não usar instâncias t3.small para hospedar clusters de produção. Se você estiver usando instâncias m5, certifique-se de escolher o tamanho certo para o seu cluster. Você pode determinar o tamanho do seu cluster com base na sua carga de trabalho e monitorando o uso da CPU. Além disso, certifique-se de que o número de partições por corretor não exceda o valor recomendado.
  • O grupo do Auto Scaling não consegue abrir uma nova instância. Isso pode acontecer devido a um problema interno ou a uma dependência ausente. Por exemplo, a chave do AWS Key Management Service (AWS KMS) especificada durante a criação do cluster pode não estar mais acessível.
  • Um evento interno raro impactou a disponibilidade das instâncias subjacentes do Amazon Elastic Compute Cloud (Amazon EC2) ou causou latência do Amazon EBS em uma zona de disponibilidade ou região da AWS.

Se o seu cluster permanecer em um estado perpétuo de CORREÇÃO que não seja induzido pela carga, entre em contato com o AWS Support.

Informações relacionadas

Estados do cluster

AWS OFICIAL
AWS OFICIALAtualizada há um ano