Salta al contenuto

Perché il mio cluster Amazon MSK passa allo stato SOLUZIONE?

4 minuti di lettura
0

Desidero risolvere i problemi del mio cluster Streaming gestito da Amazon per Apache Kafka (Amazon MSK) nello stato SOLUZIONE.

Risoluzione

Un cluster Amazon MSK passa allo stato SOLUZIONE quando il servizio esegue un'operazione interna per risolvere un problema. Ciò accade, ad esempio, quando i broker non rispondono e Amazon MSK esegue un'operazione interna per risolvere il problema dei broker che non rispondono.

Puoi continuare a utilizzare il cluster per produrre e consumare dati anche mentre il cluster è nello stato SOLUZIONE. Tuttavia, non puoi eseguire operazioni di aggiornamento dell'API di Amazon MSK o dell'Interfaccia della linea di comando AWS (AWS CLI) sul cluster finché non ritorna allo stato ATTIVO.

Utilizza le metriche di Amazon CloudWatch per Amazon MSK per scoprire perché il cluster è nello stato SOLUZIONE.

Completa i seguenti passaggi:

  1. Apri la console Amazon CloudWatch.
  2. Nel pannello di navigazione, scegli Metriche, quindi seleziona Tutte le metriche.
  3. Nella scheda Sfoglia, scegli AWS/Kafka.
  4. In Metriche, scegli Nome del cluster.
  5. Seleziona il cluster che desideri monitorare.
    Nota: eventuali picchi nella metrica ActiveControllerCount o OfflinePartitionsCount indicano che uno o più broker non sono integri. I broker non integri potrebbero aver determinato lo stato SOLUZIONE del cluster.
  6. Per controllare le metriche a livello di broker, in Metriche, scegli ID broker, Nome del cluster.
  7. Dall'elenco, seleziona le voci con il nome del cluster e le metriche CpuUser e CpuSystem.
  8. Controlla se la somma dei valori CpuUser e CpuSystem per tutte le voci raggiunge una media del 60% o superiore per il cluster. Se la media è superiore al 60%, l'utilizzo elevato della CPU potrebbe aver determinato lo stato SOLUZIONE del broker. Per ulteriori informazioni, consulta Monitoraggio dell'utilizzo della CPU.

Un cluster Amazon MSK potrebbe anche passare allo stato SOLUZIONE per uno dei seguenti motivi:

  • Amazon MSK deve sostituire un nodo o un volume Amazon Elastic Block Store (Amazon EBS) a causa di un problema hardware.
  • Un nodo non soddisfa l'Accordo sul livello di servizio relativo alle prestazioni di Amazon MSK per il broker e Amazon MSK deve sostituirlo per garantire prestazioni efficienti.

Amazon MSK è un servizio completamente gestito, quindi i broker dispongono di flussi di lavoro self-managed che eseguono azioni correttive su se stessi. Ad esempio, quando un volume Amazon EBS in un broker diventa non integro, Amazon MSK osserva lo stato del volume per un determinato lasso di tempo. Se il volume torna a essere integro durante questo lasso di tempo, AWS MSK non interviene. Se invece il volume continua a non essere integro una volta trascorso questo lasso di tempo, Amazon MSK lo sostituisce automaticamente. Il cluster entra nello stato SOLUZIONE quando Amazon MSK esegue queste azioni. Tuttavia, il cluster Amazon MSK è disponibile purché si seguano le best practice.

Il cluster Amazon MSK è in uno stato SOLUZIONE perpetuo

Il carico di lavoro sul cluster è elevato

Se il carico di lavoro sul cluster è elevato e AWS MSK sostituisce continuamente i broker, il cluster potrebbe entrare in uno stato SOLUZIONE perpetuo. Per evitare un carico di lavoro elevato sul cluster, non utilizzare istanze t3.small per ospitare i cluster di produzione. Se utilizzi istanze m5, assicurati di scegliere la dimensione corretta per il cluster. Per determinare la dimensione corretta per il cluster in base al carico di lavoro, monitora l'utilizzo della CPU, il numero di partizioni o il throughput.

Devi inoltre assicurarti che il numero di partizioni per broker non superi il valore consigliato.

Il gruppo Auto Scaling non riesce ad avviare una nuova istanza

Se è presente un problema interno, ad esempio una dipendenza mancante, il gruppo Auto Scaling non riesce ad avviare una nuova istanza e il cluster passa in uno stato SOLUZIONE perpetuo.

Ad esempio, puoi accedere più a lungo alla chiave del Servizio AWS di gestione delle chiavi (AWS KMS) specificata durante la creazione del cluster.

Un evento interno influisce sulla disponibilità dell'istanza EC2

Il cluster potrebbe anche entrare in uno stato SOLUZIONE perpetuo per uno dei seguenti motivi:

  • Un evento interno influisce sulla disponibilità delle istanze Amazon Elastic Compute Cloud (Amazon EC2) sottostanti.
  • Un evento interno causa la latenza di Amazon EBS in una zona di disponibilità o in una Regione AWS.

Se il cluster rimane in uno stato SOLUZIONE perpetuo e ciò non dipende da carichi di lavoro elevati, contatta il Supporto AWS.

Informazioni correlate

Comprendi gli stati del cluster MSK Provisioned

Benvenuto nella Guida per gli sviluppatori di Amazon MSK

Monitora un cluster Amazon MSK Provisioned

Best practice per i client Apache Kafka