He creado una instancia de cuaderno de Amazon SageMaker AI para entrenar modelos o cargar conjuntos de datos de gran tamaño, y la instancia del cuaderno parece estar congelada. No puedo ver el uso de los recursos de mi instancia de SageMaker AI.
Resolución
Cuando las instancias del navegador o cuaderno de SageMaker parezcan no responder, ejecuta un comando de Amazon Linux o revisa las métricas de Amazon CloudWatch para ver la asignación de recursos.
Ejecución de un comando de Linux para ver la utilización de los recursos de SageMaker AI
Sigue estos pasos:
- Abre la consola de SageMaker AI.
- En el panel de navegación, selecciona Instancias de cuaderno.
- Junto a la instancia de cuaderno de SageMaker AI, abre Jupyter o JupyterLab.
- Abre el terminal.
- Ejecuta los siguientes comandos para ver la asignación de recursos.
Carga de procesador y memoria del sistema disponibles:
top
Tareas en ejecución y carga del procesador:
ps -ax
Utilización y disponibilidad del espacio en disco:
df -h
Utilización y disponibilidad de RAM:
free -m
Uso de las métricas de CloudWatch para ver la utilización de los recursos de SageMaker AI
Nota: Si se muestran errores al ejecutar comandos de la Interfaz de la línea de comandos de AWS (AWS CLI), consulta Solución de problemas de AWS CLI. Además, asegúrate de utilizar la versión más reciente de la AWS CLI.
Utiliza un script de ciclo de vida. Por ejemplo, el script publish-instance-metrics publica las métricas a nivel de sistema de la instancia del cuaderno en CloudWatch. Para obtener más información, consulta publish-instance-metrics / on-start.sh en el sitio web de GitHub.
Nota: Para enviar las métricas de las instancias a CloudWatch, las instancias deben asumir un rol de ejecución de AWS Identity and Access Management (IAM). Agrega el permiso cloudwatch:PutMetricData a la política de IAM asociada al rol de ejecución.
Ejemplo de política:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect":
"Allow",
"Action": [
"cloudwatch:PutMetricData"
],
"Resource": "*"
}
]
}
Al activar Registros de CloudWatch para la configuración del ciclo de vida, utiliza un rol de SageMaker con los siguientes permisos:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect":
"Allow",
"Action": [
"logs:CreateLogDelivery",
"logs:CreateLogGroup",
"logs:CreateLogStream",
"logs:DeleteLogDelivery",
"logs:Describe*",
"logs:GetLogDelivery",
"logs:GetLogEvents",
"logs:ListLogDeliveries",
"logs:PutLogEvents",
"logs:PutResourcePolicy",
"logs:UpdateLogDelivery"
],
"Resource": "*"
}
]
}
Asegúrate de que la instancia del cuaderno tenga conectividad a Internet para obtener el archivo de configuración amazon-cloudwatch-agent.json para que el script no falle. Si el acceso a Internet no está disponible en el cuaderno, descarga manualmente el archivo .json de GitHub a tu máquina local. Carga el archivo en un bucket de Amazon Simple Storage Service (Amazon S3) y, a continuación, modifica el código bash para copiar el archivo de configuración del bucket de S3. En el script LLC on-start.sh, ejecuta el comando wget para eliminar la línea que usa el comando wget. A continuación, agrega el comando s3 cp de la AWS CLI para copiar el archivo .json del bucket de S3 a un directorio. Se recomienda colocar el archivo del agente de CloudWatch en un directorio y, a continuación, ejecutar el siguiente comando para iniciar el agente:
``/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a \
append-config -m ec2 -c file://$(pwd)/amazon-cloudwatch-agent.json
Asegúrate de crear puntos de enlace de nube virtual privada (VPC) de interfaz para poder acceder a otros servicios de AWS, como Amazon S3 y CloudWatch.
Configuración del cuaderno de SageMaker AI para ver las métricas de CloudWatch
Sigue estos pasos:
-
Abre la consola de SageMaker AI.
-
En el panel de navegación, selecciona Instancias de cuaderno.
-
Junto al cuaderno de SageMaker, abre Jupyter o Jupyterlab.
-
Abre el terminal.
-
Ejecuta el siguiente comando para abrir amazon-cloudwatch-agent-config-wizard:
sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-config-wizard
-
Sigue los pasos del asistente y, cuando se te pida, sigue estos pasos:
Elige Host local.
En Daemon de StatsD, elige No.
En CollectD, elige No.
-
Ejecuta el siguiente comando para iniciar el agente de CloudWatch en tu servidor e incluye el archivo config.json que creó el asistente:
sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:///opt/aws/amazon-cloudwatch-agent/bin/config.json -s
-
Abre la consola de CloudWatch.
-
Selecciona Métricas y, a continuación, elige CWAgent para ver las métricas de SageMaker AI.
Para ver otros ejemplos de scripts de configuración del ciclo de vida de AWS para cuadernos de SageMaker AI, consulta amazon-sagemaker-notebook-instance-lifecycle-config-samples en el sitio web de GitHub.
Información relacionada
Métricas para supervisar Amazon SageMaker AI con Amazon CloudWatch
Métricas recopiladas por el agente de CloudWatch
Herramientas para supervisar los recursos de AWS aprovisionados durante el uso de Amazon SageMaker AI
Terminales en el sitio web de JupyterLab