EC2 Linux 인스턴스에서 CloudWatch로 NVIDIA GPU 지표를 보내려면 어떻게 해야 합니까?

2분 분량
0

Linux Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스에서 Amazon CloudWatch로 NVIDIA GPU 지표를 보내려고 합니다.

간략한 설명

CloudWatch 에이전트를 사용하여 Amazon EC2 Linux 인스턴스에 대한 NVIDIA GPU 지표를 수집합니다. CloudWatch 에이전트 구성 파일의 metrics_collected 섹션 내에 nvidia_gpu 필드를 추가합니다. 자세한 내용은 NVIDIA GPU 지표 수집을 참조하십시오.

인스턴스에 NVIDIA 드라이버가 설치되어 있어야 합니다. 자세한 내용은 권장 GPU 인스턴스를 참조하십시오. 일부 Amazon Machine Image(AMI)에는 NVIDIA 드라이버가 사전 설치되어 있습니다. 인스턴스에 NVIDIA 드라이버가 없는 경우 드라이버를 수동으로 설치하십시오. 공개 NVIDIA 드라이버를 다운로드하거나 Amazon Simple Storage Service(Amazon S3)에서 드라이버를 다운로드할 수 있습니다. 또한 드라이버가 사전 설치된 AMI를 사용할 수도 있습니다. 자세한 내용은 Linux 인스턴스에 NVIDIA 드라이버 설치를 참조하십시오.

해결 방법

CloudWatch 에이전트를 다운로드하고 IAM 역할 생성

다음 단계를 완료하십시오.

  1. EC2 인스턴스용 CloudWatch 에이전트를 다운로드하여 구성합니다.
  2. CloudWatch 에이전트를 설치합니다.
  3. 인스턴스에 CloudWatch로 데이터를 전송할 수 있는 아웃바운드 인터넷 액세스 권한이 있는지 확인합니다.
  4. CloudWatch 에이전트에서 사용할 AWS Identity and Access Management(IAM) 역할을 생성합니다.

참고: IAM 역할에는 AmazonS3ReadOnlyAccess AWS 관리형 정책에 대한 액세스 권한이 있어야 합니다.

CloudWatch 에이전트 구성 파일을 생성 또는 편집하고 에이전트 시작

다음 단계를 완료하십시오.

  1. CloudWatch 에이전트 구성 파일을 수동으로 생성 또는 편집합니다. 수집하려는 GPU 지표를 metrics_collected 섹션 아래의 nvidia_gpu 필드에 지정해야 합니다.
    CloudWatch 에이전트 구성 파일 예:

    {
        "agent": {
            "metrics_collection_interval": 60,
            "run_as_user": "root"
        },
        "metrics": {
            "metrics_collected": {
                "nvidia_gpu": {
                    "measurement": [
                        "utilization_gpu",
                        "memory_total",
                        "memory_used",
                        "memory_free"
                    ]
                }
            }
        }
    }
  2. 다음 명령을 실행하여 명령줄을 사용해 CloudWatch 에이전트를 시작합니다.

     sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:configuration-file-path -s

    참고: configuration-file-path를 구성 파일 경로로 바꾸십시오.
    CloudWatch 에이전트가 시작되지 않고 다음과 같은 오류 메시지가 표시되면 에이전트가 nvidia-smi 파일을 찾을 수 없는 것입니다.
    "[telegraf] Error running agent: validate input plugin nvidia_smi failed because of Cannot get file's stat /usr/bin/nvidia-smi: no such file or directory"

  3. NVIDIA 드라이버가 제대로 설치되었는지 확인하려면 다음 명령을 실행합니다.

    [ec2-user ~]$ nvidia-smi -q | head

출력에는 설치된 NVIDIA 드라이버 버전과 GPU에 대한 세부 정보가 표시됩니다.

NVIDIA 드라이버가 제대로 설치되지 않은 경우 Linux EC2 인스턴스 유형에 대한 드라이버를 다시 설치하십시오.

관련 정보

NVIDIA GPU 가속 EC2 Linux 인스턴스의 Xid 오류 문제를 해결하려면 어떻게 해야 합니까?

Amazon CloudWatch 에이전트에서 NVIDIA GPU 지표 지원 추가

AWS 공식
AWS 공식업데이트됨 일 년 전