在Linux(Ubuntu)上进行模型训练期间,监测NVIDIA GPU的最佳方法是什么?

0

【以下的问题经过翻译处理】 在Linux(Ubuntu)Amazon EC2实例上监控NVIDIA GPU利用率,推荐使用哪个工具?我当前正在训练自定义的TensorFlow ML模型,并使用NVIDIA系统管理接口(nvidia-smi)跟踪内存使用情况,GPU利用率以及NVIDIA GPU设备的温度。

profile picture
EXPERTE
gefragt vor 8 Monaten29 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 您可以通过cloudwatch监控NVIDIA GPU的指标。如下面链接所示:https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Agent-NVIDIA-GPU.html。您还可以使用Amazon SageMaker调试器分析报告来捕获系统指标。该报告提供以下信息:* 系统使用统计数据* 框架指标* 规则评估结果* 步骤持续时间* GPU利用率* 批量大小* CPU瓶颈* I / O瓶颈* 负载均衡* GPU内存

profile picture
EXPERTE
beantwortet vor 8 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen