如何将来自 EC2 Linux 实例的 NVIDIA GPU 指标发送到 CloudWatch?

2 分钟阅读
0

我想将来自 Linux Amazon Elastic Compute Cloud (Amazon EC2) 实例的 NVIDIA GPU 指标发送到 Amazon CloudWatch。

简短描述

使用 CloudWatch 代理为 Amazon EC2 Linux 实例收集 NVIDIA GPU 指标。在 CloudWatch 代理配置文件的 metrics_collected 部分中添加 nvidia_gpu 字段。有关详细信息,请参阅收集 NVIDIA GPU 指标

该实例必须安装 NVIDIA 驱动程序。有关详细信息,请参阅推荐的 GPU 实例。NVIDIA 驱动程序已预装在某些亚马逊机器映像 (AMI) 上。如果实例没有 NVIDIA 驱动程序,请手动安装该驱动程序。您可以下载公开 NVIDIA 驱动程序或从 Amazon Simple Storage Service (Amazon S3) 下载驱动程序。您也可以使用已预装驱动程序的 AMI。有关详细信息,请参阅在 Linux 实例上安装 NVIDIA 驱动程序

解决方法

下载 CloudWatch 代理并创建 IAM 角色

完成以下步骤:

  1. 为 EC2 实例下载并配置 CloudWatch 代理
  2. 安装 CloudWatch 代理
  3. 验证您的实例是否具有出站互联网访问权限以将数据发送到 CloudWatch
  4. 创建 AWS Identity and Access Management (IAM) 角色以用于 CloudWatch 代理

**注意:**IAM 角色必须有权访问 AmazonS3ReadOnlyAccess AWS 托管式策略。

创建或编辑 CloudWatch 代理配置文件并启动代理

完成以下步骤:

  1. 手动创建或编辑 CloudWatch 代理配置文件。确保在 metrics_collected 部分下的 nvidia_gpu 字段中指定要收集的 GPU 指标。
    CloudWatch 代理配置文件示例:

    {
        "agent": {
            "metrics_collection_interval": 60,
            "run_as_user": "root"
        },
        "metrics": {
            "metrics_collected": {
                "nvidia_gpu": {
                    "measurement": [
                        "utilization_gpu",
                        "memory_total",
                        "memory_used",
                        "memory_free"
                    ]
                }
            }
        }
    }
  2. 运行以下命令以使用命令行启动 CloudWatch 代理

     sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:configuration-file-path -s

    **注意:**将 configuration-file-path 替换为您的配置文件路径。
    如果 CloudWatch 代理无法启动并且您收到以下错误消息,则该代理无法找到 nvidia-smi 文件:
    “[telegraf] Error running agent: validate input plugin nvidia_smi failed because of Cannot get file's stat /usr/bin/nvidia-smi: no such file or directory([telegraf] 运行代理时出错:验证输入插件 nvidia_smi 失败,原因是无法获取文件的统计数据 /usr/bin/nvidia-smi:没有此类文件或目录)”

  3. 要验证是否已正确安装 NVIDIA 驱动程序,请运行以下命令:

    [ec2-user ~]$ nvidia-smi -q | head

输出列出了已安装的 NVIDIA 驱动程序版本以及有关 GPU 的详细信息。

如果 NVIDIA 驱动程序未正确安装,请重新安装适用于您的 Linux EC2 实例类型的驱动程序

相关信息

如何解决 NVIDIA GPU 加速 EC2 Linux 实例上的 Xid 错误?

Amazon CloudWatch 代理增加了对 NVIDIA GPU 指标的支持

AWS 官方
AWS 官方已更新 1 年前