在Linux(Ubuntu)上进行模型训练期间,监测NVIDIA GPU的最佳方法是什么?

0

【以下的问题经过翻译处理】 在Linux(Ubuntu)Amazon EC2实例上监控NVIDIA GPU利用率,推荐使用哪个工具?我当前正在训练自定义的TensorFlow ML模型,并使用NVIDIA系统管理接口(nvidia-smi)跟踪内存使用情况,GPU利用率以及NVIDIA GPU设备的温度。

profile picture
전문가
질문됨 8달 전29회 조회
1개 답변
0

【以下的回答经过翻译处理】 您可以通过cloudwatch监控NVIDIA GPU的指标。如下面链接所示:https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Agent-NVIDIA-GPU.html。您还可以使用Amazon SageMaker调试器分析报告来捕获系统指标。该报告提供以下信息:* 系统使用统计数据* 框架指标* 规则评估结果* 步骤持续时间* GPU利用率* 批量大小* CPU瓶颈* I / O瓶颈* 负载均衡* GPU内存

profile picture
전문가
답변함 8달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인

관련 콘텐츠