What's the best way to monitor NVIDIA GPU utilization on Linux (Ubuntu) during model training?

0

Which tool is recommended for monitoring NVIDIA GPU utilization on a Linux (Ubuntu) Amazon EC2 instance? I'm currently training custom TensorFlow ML models and using the NVIDIA System Management Interface (nvidia-smi) to track memory usage, GPU utilization, and the temperature of my NVIDIA GPU devices.

AWS
Ioan
preguntada hace 3 años788 visualizaciones
1 Respuesta
0
Respuesta aceptada

You can also use the Amazon SageMaker Debugger Profiling Report to capture system metrics.

The report provides information on the following:

  • System usage statistics
  • Framework metrics
  • Rule evaluation results
  • Step durations
  • GPU utilization
  • Batch size
  • CPU bottlenecks
  • I/O bottlenecks
  • Workload balancing
  • GPU memory
respondido hace 3 años

No has iniciado sesión. Iniciar sesión para publicar una respuesta.

Una buena respuesta responde claramente a la pregunta, proporciona comentarios constructivos y fomenta el crecimiento profesional en la persona que hace la pregunta.

Pautas para responder preguntas