What's the best way to monitor NVIDIA GPU utilization on Linux (Ubuntu) during model training?


Which tool is recommended for monitoring NVIDIA GPU utilization on a Linux (Ubuntu) Amazon EC2 instance? I'm currently training custom TensorFlow ML models and using the NVIDIA System Management Interface (nvidia-smi) to track memory usage, GPU utilization, and the temperature of my NVIDIA GPU devices.

gefragt vor 3 Jahren788 Aufrufe
1 Antwort
Akzeptierte Antwort

You can also use the Amazon SageMaker Debugger Profiling Report to capture system metrics.

The report provides information on the following:

  • System usage statistics
  • Framework metrics
  • Rule evaluation results
  • Step durations
  • GPU utilization
  • Batch size
  • CPU bottlenecks
  • I/O bottlenecks
  • Workload balancing
  • GPU memory
beantwortet vor 3 Jahren

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen