AWS announces preview of AWS Interconnect - multicloud
AWS announces AWS Interconnect – multicloud (preview), providing simple, resilient, high-speed private connections to other cloud service providers. AWS Interconnect - multicloud is easy to configure and provides high-speed, resilient connectivity with dedicated bandwidth, enabling customers to interconnect AWS networking services such as AWS Transit Gateway, AWS Cloud WAN, and Amazon VPC to other cloud service providers with ease.
Comment résoudre les problèmes liés au journal d’erreurs de mon SSM Agent en cas de panne ?
Je souhaite résoudre les problèmes liés au journal d’erreurs de mon AWS Systems Manager Agent (SSM Agent) pour des raisons de panne.
Brève description
Les commandes de Systems Manager peuvent échouer sur les instances cibles lors de l'exécution de la commande, de l'association, de l'automatisation ou de Sessions Manager, une fonctionnalité de Systems Manager. Ces échecs provoquent une erreur similaire à la suivante :
« document process failed unexpectedly: document worker timed out; check [ssm-document-worker]/[ssm-session-worker] log for crash reason. »
Cette erreur se produit pour les raisons suivantes :
- Ressources insuffisantes
- Mémoire insuffisante (OOM)
- Espace insuffisant sur le disque
- Trop grand nombre de fichiers ouverts
Pour plus d’informations sur la résolution de problèmes, consultez les journaux de SSM Agent sur l'instance.
Remarque : Pour améliorer les performances, la sécurité et accéder aux dernières fonctionnalités, mettez à jour SSM Agent vers la dernière version. Abonnez-vous également à amazon-ssm-agent/RELEASE NOTES sur le site Web de GitHub pour recevoir des notifications concernant les mises à jour de SSM Agent.
Résolution
Ressources insuffisantes
Si une session avec une instance cible est confrontée à des limites de ressources, telles qu'un dépassement de la mémoire ou de l'espace disque, la session peut se bloquer et provoquer des dysfonctionnements du système. Assurez-vous que vos instances disposent de ressources suffisantes pour gérer la charge de travail exécutée sur les instances cibles
OOM (mémoire insuffisante)
Les erreurs OOM se produisent lorsque des processus en cours d'exécution utilisent toute la mémoire disponible et qu'un programme ou un système d'exploitation (OS) ne peut pas allouer d'espace. Le système concerné ne peut pas charger de programmes supplémentaires et les processus associés cessent de fonctionner correctement. Le système d'exploitation désactive ensuite les processus qu'il juge peu prioritaires.
Pour vérifier si la mémoire insuffisante est à l'origine de cette erreur, consultez la section Résoudre les problèmes liés à une instance inaccessible. Pour les problèmes liés à Linux OOM, consultez la section Mémoire insuffisante : fin du processus.
Espace insuffisant sur le disque
Cette erreur se produit sur un système Linux lorsque vous essayez d'écrire des données ou d'enregistrer des fichiers, mais que vous manquez d'espace. Pour résoudre cette erreur, effectuez les actions suivantes :
- Vérifiez les fichiers qui occupent une grande quantité d'espace sur le disque ou la partition.
- Libérez de l'espace supplémentaire sur la partition.
- Vérifiez si l’espace est suffisant sous les répertoires de travail, y compris les dossiers d'orchestration de Systems Manager situés dans /var/lib/amazon/ssm.
- Augmentez la taille de l'espace. Pour plus d’informations, consultez la section Comment puis-je augmenter la taille de mon volume EBS si je reçois un message d'erreur indiquant qu'il n'y a plus d'espace libre sur mon système de fichiers ?
Trop grand nombre de fichiers ouverts
Lorsque les instances Linux arrêtent de traiter la commande d'exécution de Systems Manager en raison d'une panne de Document Worker, une erreur d’ouverture d’un nombre excessif de fichiers peut s’afficher. Lorsqu'un trop grand nombre de fichiers sont ouverts, SSM Agent ne peut pas lancer les processeurs de commandes et signale cette erreur dans les journaux de l'agent. Cette erreur se produit dans les scénarios suivants :
- Le processus de SSM Agent a atteint le nombre maximal de fichiers ouverts pour l'utilisateur racine.
- Le nombre total de fichiers ouverts dans le système a atteint la limite maximale de fichiers ouverts à l'échelle du système.
- Le système a atteint la limite de notification du sous-système dans le noyau.
Pour résoudre cette erreur, procédez comme suit :
1. Identifiez le PID du processus SSM Agent :
$ sudo ps -C amazon-ssm-agent -o pid=
2. Identifiez les limites du PID. Le premier chiffre est la limite flexible et le second est la limite stricte.
$ sudo cat /proc/_**PID**_/limits |grep "Max open files"
3. Identifiez le nombre total de fichiers ouverts à partir du processus Systems Manager :
$ sudo lsof -p _**PID**_ |wc -l
4. Comparez les résultats entre les étapes 2 et 3. Si le nombre total de fichiers ouverts est proche de la limite stricte, cela peut empêcher l'ouverture de nouveaux fichiers. Pour résoudre ce problème, effectuez l’une des actions suivantes :
- Redémarrez le SSM Agent.
- Définissez une valeur plus élevée pour la limite stricte dans les fichiers de démarrage de SSM Agent :
Remarque : Remplacez tous les exemples de chaînes par vos valeurs.
Upstart : Amazon Linux 1, Ubuntu 14.04 et Ubuntu 16.04 avec le package .deb
echo "limit nofile example-hard-limit" >> /etc/init/amazon-ssm-agent.override
Systemd : Amazon Linux 2, RHEL 7.x et RHEL 8.x
$ sudo systemctl edit amazon-ssm-agent [Service] LimitNOFILE=example-hard-limit
Systemd : Ubuntu 22.04 LTS, 20.10 STR et 20.04, 18.04 (à l’aide de Snap)
$ sudo systemctl edit snap.amazon-ssm-agent.amazon-ssm-agent [Service] LimitNOFILE=example-hard-limit
5. Redémarrez le service SSM Agent.
Remarque : Lorsque vous mettez à jour la limite stricte, vérifiez les exigences de votre application, notamment le nombre d'utilisateurs simultanés, les connexions réseau et les opérations sur les fichiers. Pour éviter les abus et l'épuisement de ressources, les limites strictes par défaut sont définies à un niveau bas. Assurez-vous de tester la nouvelle limite stricte. Surveillez la limite stricte et ajustez-la si nécessaire.
Consulter les journaux de l’agent
Pour consulter les journaux de l’agent, procédez comme suit :
1. Consultez les journaux SSM Agent. SSM Agent conserve les informations dans les fichiers suivants :
Remarque : Pour comprendre les fichiers journaux disponibles et leur utilité, il est recommandé de consulter la documentation officielle du système d'exploitation que vous utilisez.
- Linux - /var/log/amazon/ssm/amazon-ssm-agent.log
- Linux - /var/log/amazon/ssm/errors.log
- Windows - %PROGRAMDATA%\Amazon\SSM\Logs\amazon-ssm-agent.log
- Windows - %PROGRAMDATA%\Amazon\SSM\Logs\errors.log
2. Consultez les journaux au niveau du système d'exploitation pour détecter les problèmes liés au logiciel ou au noyau :
- Windows - C:\Windows\System32\winevt\Logs
- Ubuntu/Debian - /var/log/syslog
- Amazon Linux/CentOS/RHEL - /var/log/messages
- Suse - /var/log/messages
3. Mettez à jour le fichier seelog.xml pour autoriser la journalisation du débogage de SSM Agent.
Remarque : La journalisation du débogage de SSM Agent génère de grandes quantités de données de journal susceptibles d'affecter le stockage du système. Une fois le dépannage terminé, il est recommandé de désactiver la journalisation du débogage.
Informations connexes
- Sujets
- Management & Governance
- Balises
- AWS Systems Manager
- Langue
- Français

Contenus pertinents
- demandé il y a un an
- demandé il y a 3 ans
- demandé il y a 2 ans