Passer au contenu

Comment résoudre les problèmes liés au journal d’erreurs de mon SSM Agent en cas de panne ?

Lecture de 6 minute(s)
0

Je souhaite résoudre les problèmes liés au journal d’erreurs de mon AWS Systems Manager Agent (SSM Agent) pour des raisons de panne.

Brève description

Les commandes de Systems Manager peuvent échouer sur les instances cibles lors de l'exécution de la commande, de l'association, de l'automatisation ou de Sessions Manager, une fonctionnalité de Systems Manager. Ces échecs provoquent une erreur similaire à la suivante :

« document process failed unexpectedly: document worker timed out; check [ssm-document-worker]/[ssm-session-worker] log for crash reason. »

Cette erreur se produit pour les raisons suivantes :

  • Ressources insuffisantes
  • Mémoire insuffisante (OOM)
  • Espace insuffisant sur le disque
  • Trop grand nombre de fichiers ouverts

Pour plus d’informations sur la résolution de problèmes, consultez les journaux de SSM Agent sur l'instance.

Remarque : Pour améliorer les performances, la sécurité et accéder aux dernières fonctionnalités, mettez à jour SSM Agent vers la dernière version. Abonnez-vous également à amazon-ssm-agent/RELEASE NOTES sur le site Web de GitHub pour recevoir des notifications concernant les mises à jour de SSM Agent.

Résolution

Ressources insuffisantes

Si une session avec une instance cible est confrontée à des limites de ressources, telles qu'un dépassement de la mémoire ou de l'espace disque, la session peut se bloquer et provoquer des dysfonctionnements du système. Assurez-vous que vos instances disposent de ressources suffisantes pour gérer la charge de travail exécutée sur les instances cibles

OOM (mémoire insuffisante)

Les erreurs OOM se produisent lorsque des processus en cours d'exécution utilisent toute la mémoire disponible et qu'un programme ou un système d'exploitation (OS) ne peut pas allouer d'espace. Le système concerné ne peut pas charger de programmes supplémentaires et les processus associés cessent de fonctionner correctement. Le système d'exploitation désactive ensuite les processus qu'il juge peu prioritaires.

Pour vérifier si la mémoire insuffisante est à l'origine de cette erreur, consultez la section Résoudre les problèmes liés à une instance inaccessible. Pour les problèmes liés à Linux OOM, consultez la section Mémoire insuffisante : fin du processus.

Espace insuffisant sur le disque

Cette erreur se produit sur un système Linux lorsque vous essayez d'écrire des données ou d'enregistrer des fichiers, mais que vous manquez d'espace. Pour résoudre cette erreur, effectuez les actions suivantes :

Trop grand nombre de fichiers ouverts

Lorsque les instances Linux arrêtent de traiter la commande d'exécution de Systems Manager en raison d'une panne de Document Worker, une erreur d’ouverture d’un nombre excessif de fichiers peut s’afficher. Lorsqu'un trop grand nombre de fichiers sont ouverts, SSM Agent ne peut pas lancer les processeurs de commandes et signale cette erreur dans les journaux de l'agent. Cette erreur se produit dans les scénarios suivants :

  • Le processus de SSM Agent a atteint le nombre maximal de fichiers ouverts pour l'utilisateur racine.
  • Le nombre total de fichiers ouverts dans le système a atteint la limite maximale de fichiers ouverts à l'échelle du système.
  • Le système a atteint la limite de notification du sous-système dans le noyau.

Pour résoudre cette erreur, procédez comme suit :

1.     Identifiez le PID du processus SSM Agent :

$ sudo ps -C amazon-ssm-agent -o pid=

2.     Identifiez les limites du PID. Le premier chiffre est la limite flexible et le second est la limite stricte.

$ sudo cat /proc/_**PID**_/limits |grep "Max open files"

3.    Identifiez le nombre total de fichiers ouverts à partir du processus Systems Manager :

$ sudo lsof -p _**PID**_ |wc -l

4.    Comparez les résultats entre les étapes 2 et 3. Si le nombre total de fichiers ouverts est proche de la limite stricte, cela peut empêcher l'ouverture de nouveaux fichiers. Pour résoudre ce problème, effectuez l’une des actions suivantes :

  • Redémarrez le SSM Agent.
  • Définissez une valeur plus élevée pour la limite stricte dans les fichiers de démarrage de SSM Agent :

Remarque : Remplacez tous les exemples de chaînes par vos valeurs.

Upstart : Amazon Linux 1, Ubuntu 14.04 et Ubuntu 16.04 avec le package .deb

echo "limit nofile example-hard-limit" >> /etc/init/amazon-ssm-agent.override

Systemd : Amazon Linux 2, RHEL 7.x et RHEL 8.x

$ sudo systemctl edit amazon-ssm-agent  [Service]  LimitNOFILE=example-hard-limit

Systemd : Ubuntu 22.04 LTS, 20.10 STR et 20.04, 18.04 (à l’aide de Snap)

$ sudo systemctl edit snap.amazon-ssm-agent.amazon-ssm-agent  [Service]  LimitNOFILE=example-hard-limit

5.    Redémarrez le service SSM Agent.

Remarque : Lorsque vous mettez à jour la limite stricte, vérifiez les exigences de votre application, notamment le nombre d'utilisateurs simultanés, les connexions réseau et les opérations sur les fichiers. Pour éviter les abus et l'épuisement de ressources, les limites strictes par défaut sont définies à un niveau bas. Assurez-vous de tester la nouvelle limite stricte. Surveillez la limite stricte et ajustez-la si nécessaire.

Consulter les journaux de l’agent

Pour consulter les journaux de l’agent, procédez comme suit :

1.    Consultez les journaux SSM Agent. SSM Agent conserve les informations dans les fichiers suivants :

Remarque : Pour comprendre les fichiers journaux disponibles et leur utilité, il est recommandé de consulter la documentation officielle du système d'exploitation que vous utilisez.

  • Linux - /var/log/amazon/ssm/amazon-ssm-agent.log
  • Linux - /var/log/amazon/ssm/errors.log
  • Windows - %PROGRAMDATA%\Amazon\SSM\Logs\amazon-ssm-agent.log
  • Windows - %PROGRAMDATA%\Amazon\SSM\Logs\errors.log

2.    Consultez les journaux au niveau du système d'exploitation pour détecter les problèmes liés au logiciel ou au noyau :

  • Windows - C:\Windows\System32\winevt\Logs
  • Ubuntu/Debian - /var/log/syslog
  • Amazon Linux/CentOS/RHEL - /var/log/messages
  • Suse - /var/log/messages

3.    Mettez à jour le fichier seelog.xml pour autoriser la journalisation du débogage de SSM Agent.

Remarque : La journalisation du débogage de SSM Agent génère de grandes quantités de données de journal susceptibles d'affecter le stockage du système. Une fois le dépannage terminé, il est recommandé de désactiver la journalisation du débogage.

Informations connexes

Résolution de problèmes liés à SSM Agent.

AWS OFFICIELA mis à jour il y a 2 ans