¿Por qué mi instancia de cuaderno de Amazon SageMaker se queda atascada en el estado Pendiente y, a continuación, falla?

4 minutos de lectura
0

Cuando creo o inicio una instancia de cuaderno de Amazon SageMaker, la instancia pasa al estado Pendiente. La instancia de cuaderno parece estar atascada en este estado y, a continuación, se produce un error.

Descripción breve

El estado Pendiente significa que SageMaker está creando la instancia del cuaderno. Si se produce un error en algún paso del proceso de creación, SageMaker intentará volver a crear el cuaderno. Esta es la razón por la que un cuaderno puede permanecer en estado Pendiente más tiempo del esperado. Si SageMaker sigue sin poder crear la instancia del cuaderno, el estado cambiará eventualmente a Se ha producido un error.

Resolución

Confirme el motivo del error

Compruebe la respuesta FailureReason en la API DescribeNotebookInstance. También puede encontrar el motivo del error en la consola de SageMaker:

  • Para ver una ventana emergente que muestra una versión abreviada del motivo del error, sitúe el cursor sobre Se ha producido un error en la columna Estado.
  • Para ver el motivo completo del error, elija el nombre de la instancia del cuaderno. El motivo del error aparece en la parte superior de la sección de configuración de la instancia de Cuaderno.

Utilice el motivo del error para solucionar el problema raíz.

Errores comunes

«fatal: no se puede acceder a 'https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples/': No se ha podido conectar al puerto 443 de github.com: Tiempo de conexión agotado»

Este error se produce cuando la configuración de red de la instancia del cuaderno no admite el nombre de dominio o la conexión del repositorio Git externo.

Importante: Las instancias del cuaderno que se despliegan en una nube virtual privada (VPC) no heredan automáticamente las tablas de enrutamiento personalizadas, como las tablas de enrutamiento de subred para las conexiones de emparejamiento de VPC. Si necesita una tabla de enrutamiento personalizada, cree un script de configuración del ciclo de vida que añada la ruta en startup. Para obtener más información, consulte Descripción de las configuraciones de redes de instancias del cuaderno de Amazon SageMaker y de las opciones de enrutamiento avanzadas.

Para comprobar que la conexión a Git está activa y que puede conectarse al repositorio desde una instancia de cuaderno: Cree una nueva instancia de cuaderno sin un repositorio de Git asociado. A continuación, abra la consola de Jupyter y utilice una sesión de terminal para ejecutar los siguientes comandos:

1.FSPResolver el nombre de host del servidor:

dig repo_hostname

Si la sección de respuestas del resultado está vacía, el cuaderno no ha podido solucionar el nombre de host. Por ejemplo, la sección de respuestas de github.com se muestra así:

;; ANSWER SECTION:
github.com.    16  IN     A   20.248.137.48

2.FSPSi la sección de respuestas del resultado contiene una respuesta, la resolución del nombre de dominio funciona. A continuación, puede ejecutar el siguiente comando para probar la conexión con el nombre de host:

curl -v your-git-repo-url:443

3.FSPSi se rechaza la conexión o se agota el tiempo de espera, compruebe las reglas del grupo de seguridad de VPC y las tablas de enrutamiento. Si la conexión es correcta, utilice los comandos de git para probar sus credenciales:

git pull https://your-git-repo-url

«Error en la configuración del ciclo de vida»

Si un script de configuración del ciclo de vida se ejecuta durante más de cinco minutos, se produce un error y la instancia del cuaderno no se crea ni se inicia. Para obtener sugerencias sobre cómo reducir el tiempo de ejecución de los scripts, consulte Personalizar una instancia de cuaderno mediante un script de configuración del ciclo de vida. Para solucionar problemas con el script, consulte los registros de Amazon CloudWatch para ver la configuración del ciclo de vida:

  • Grupo de registro: /aws/sagemaker/NotebookInstances
  • Secuencia de registro: notebook-instance-name/LifecycleConfigOnStart o notebook-instance-name/LifecycleConfigOnCreate

«Este tipo de instancia de cuaderno 'ml.m4.xlarge' no está disponible temporalmente. Sentimos las molestias. Vuelva a intentarlo dentro de unos minutos o pruebe con otro tipo de instancia.»

Este error se produce cuando Amazon Elastic Compute Cloud (Amazon EC2) no tiene suficiente capacidad disponible para el tipo de instancia que ha seleccionado. La capacidad varía en función de la demanda de ese tipo de instancia en esa región en ese momento. Vuelva a realizar la solicitud más tarde para comprobar si los niveles de capacidad han cambiado. O bien, elija otro tipo de instancia.

Errores internos de HTTP 500

Un error de HTTP 500 indica que se ha producido un error inesperado al crear la instancia de cuaderno. Para descartar problemas transitorios, intente crear de nuevo la instancia de cuaderno.


Información relacionada

Asociar repositorios de Git a instancias del cuaderno de SageMaker

Errores comunes

OFICIAL DE AWS
OFICIAL DE AWSActualizada hace un año