Comment puis-je envoyer des métriques GPU NVIDIA de mes instances Linux EC2 à CloudWatch ?

Lecture de 3 minute(s)
0

Je souhaite envoyer des métriques GPU NVIDIA des instances Linux Amazon Elastic Compute Cloud (Amazon EC2) à Amazon CloudWatch.

Brève description

Utilisez l'agent CloudWatch pour collecter les métriques GPU NVIDIA pour vos instances Amazon EC2 Linux. Ajoutez le champ nvidia_gpu dans la section metrics_collected du fichier de configuration de l'agent CloudWatch. Pour en savoir plus, consultez la section Collecter les métriques GPU NVIDIA.

Un pilote NVIDIA doit être installé sur l'instance. Pour plus d'informations, consultez la section Instances GPU recommandées. Les pilotes NVIDIA sont préinstallés sur certaines Amazon Machine Images (AMI). Si l'instance ne possède pas de pilote NVIDIA, installez-le manuellement. Vous pouvez télécharger un pilote NVIDIA public ou télécharger un pilote depuis Amazon Simple Storage Service (Amazon S3). Vous pouvez également utiliser une AMI avec le pilote préinstallé. Pour plus d'informations, consultez la section Installer les pilotes NVIDIA sur les instances Linux.

Résolution

Télécharger l'agent CloudWatch et créer un rôle IAM

Procédez comme suit :

  1. Téléchargez et configurez l'agent CloudWatch pour vos instances EC2.
  2. Installez l’agent CloudWatch.
  3. Vérifiez que vos instances disposent d'un accès Internet sortant pour envoyer des données à CloudWatch.
  4. Créez un rôle AWS Identity and Access Management (IAM) pour exécuter l'agent CloudWatch.

Remarque : Le rôle IAM doit avoir accès à la politique gérée par AWS AmazonS3ReadOnlyAccess.

Créer ou modifier le fichier de configuration de l'agent CloudWatch et démarrer l'agent

Procédez comme suit :

  1. Créez ou modifiez manuellement le fichier de configuration de l'agent CloudWatch. Assurez-vous de spécifier les métriques GPU que vous souhaitez collecter dans le champ nvidia_gpu de la section metrics_collected.
    Exemple de fichier de configuration de l'agent CloudWatch :

    {
        "agent": {
            "metrics_collection_interval": 60,
            "run_as_user": "root"
        },
        "metrics": {
            "metrics_collected": {
                "nvidia_gpu": {
                    "measurement": [
                        "utilization_gpu",
                        "memory_total",
                        "memory_used",
                        "memory_free"
                    ]
                }
            }
        }
    }
  2. Exécutez la commande suivante pour utiliser la ligne de commande afin de démarrer l'agent CloudWatch :

     sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:configuration-file-path -s

    Remarque : Remplacez configuration-file-path par le chemin de votre fichier de configuration.
    Si l'agent CloudWatch ne démarre pas et que vous recevez le message d'erreur suivant, cela signifie que l'agent ne peut pas localiser le fichier nvidia-smi :
    « [telegraf] Error running agent: validate input plugin nvidia_smi failed because of Cannot get file's stat /usr/bin/nvidia-smi: no such file or directory »

  3. Pour vérifier que le pilote NVIDIA est correctement installé, exécutez la commande suivante :

    [ec2-user ~]$ nvidia-smi -q | head

La sortie répertorie la version installée du pilote NVIDIA et des informations sur les GPU.

Si le pilote NVIDIA n'a pas été correctement installé, réinstallez-le pour votre type d'instance Linux EC2.

Informations connexes

Comment puis-je résoudre les erreurs Xid sur mon instance Linux EC2 accélérée par le GPU NVIDIA ?

L'agent Amazon CloudWatch ajoute la prise en charge des métriques GPU NVIDIA

AWS OFFICIEL
AWS OFFICIELA mis à jour il y a un an