What's the best way to monitor NVIDIA GPU utilization on Linux (Ubuntu) during model training?

0

Which tool is recommended for monitoring NVIDIA GPU utilization on a Linux (Ubuntu) Amazon EC2 instance? I'm currently training custom TensorFlow ML models and using the NVIDIA System Management Interface (nvidia-smi) to track memory usage, GPU utilization, and the temperature of my NVIDIA GPU devices.

AWS
Ioan
質問済み 3年前784ビュー
1回答
0
承認された回答

You can also use the Amazon SageMaker Debugger Profiling Report to capture system metrics.

The report provides information on the following:

  • System usage statistics
  • Framework metrics
  • Rule evaluation results
  • Step durations
  • GPU utilization
  • Batch size
  • CPU bottlenecks
  • I/O bottlenecks
  • Workload balancing
  • GPU memory
回答済み 3年前

ログインしていません。 ログイン 回答を投稿する。

優れた回答とは、質問に明確に答え、建設的なフィードバックを提供し、質問者の専門分野におけるスキルの向上を促すものです。

質問に答えるためのガイドライン