Pourquoi mon instance de bloc-notes Amazon SageMaker est-elle bloquée à l'état Pending (En attente), puis échoue ?

Lecture de 4 minute(s)
0

Lorsque je crée ou démarre une instance de bloc-notes Amazon SageMaker, l'instance passe à l'état Pending (En attente). L'instance de bloc-notes semble être bloquée dans cet état, puis elle échoue.

Brève description

L'état En attente signifie que SageMaker crée l'instance de bloc-notes. Si l'une des étapes du processus de création échoue, SageMaker tente de créer à nouveau le bloc-notes. C'est pourquoi un bloc-notes peut rester à l'état Pending (En attente) plus longtemps que prévu. Si SageMaker ne parvient toujours pas à créer l'instance de bloc-notes, le statut devient Failed (Échec).

Solution

Confirmation du motif d'échec

Vérifiez la réponse FailureReason dans l'API DescribeNotebookInstance. Vous pouvez également trouver le motif de l'échec dans la console SageMaker :

  • Pour afficher une fenêtre contextuelle qui affiche une version raccourcie du motif d'échec, mettez en pause l'option Échec dans la colonne État.
  • Pour voir la raison complète de l'échec, choisissez le nom de l'instance de bloc-notes. Le motif de l'échec apparaît en haut de la section Paramètres de l'instance du bloc-notes.

Utilisez la raison de l'échec pour résoudre la cause racine.

Erreurs courantes

"fatal: unable to access 'https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples/': Failed to connect to github.com port 443: Connection timed out"

Cette erreur se produit lorsque la configuration réseau pour l'instance de bloc-notes ne prend pas en charge le nom de domaine ou la connexion pour le référentiel Git externe.

Important : les instances de bloc-notes déployées dans un cloud privé virtuel (VPC) n'héritent pas automatiquement des tables de routage personnalisées, telles que les tables de routage de sous-réseau pour les connexions d'appairage de VPC. Si vous avez besoin d'une table de routage personnalisée, créez un script de configuration du cycle de vie qui ajoute le routage au démarrage. Pour plus d'informations, consultez Présentation des configurations de réseaux d'instances de bloc-notes Amazon SageMaker et des options de routage avancées (langue Français non garantie).

Pour vérifier que la connexion Git est active et que vous pouvez vous connecter au référentiel à partir d'une instance de bloc-notes, créez une nouvelle instance de bloc-notes sans référentiel Git associé. Ensuite, ouvrez la console Jupyter et utilisez une session de terminal pour exécuter les commandes suivantes :

1. Résolvez le nom d'hôte du serveur :

dig repo_hostname

Si la section ANSWER SECTION de la sortie est vide, le bloc-notes n'a pas pu résoudre le nom d'hôte. Par exemple, la section ANSWER SECTION de github.com s'affiche comme suit :

;; ANSWER SECTION:
github.com.    16  IN     A   20.248.137.48

2. Si la section ANSWER SECTION de la sortie contient une réponse, la résolution de nom de domaine fonctionne. Vous pouvez ensuite exécuter la commande suivante pour tester la connexion au nom d'hôte :

curl -v your-git-repo-url:443

3. Si la connexion est refusée ou expire, vérifiez les règles du groupe de sécurité VPC et les tables de routage. Si la connexion est réussie, utilisez les commandes git pour tester vos informations d'identification :

git pull https://your-git-repo-url

« Échec de la configuration du cycle de vie »

Si un script de configuration de cycle de vie s'exécute pendant plus de cinq minutes, il échoue, et l'instance de bloc-notes n'est ni créée ni démarrée. Pour obtenir des suggestions sur la façon de réduire la durée d'exécution du script, consultez Personnalisation d'une instance de bloc-notes à l'aide d'un script de configuration du cycle de vie. Pour résoudre les problèmes liés au script, consultez les journaux Amazon CloudWatch Logs afin de connaître la configuration du cycle de vie :

  • Groupe de journaux : /aws/sagemaker/NotebookInstances
  • Flux de journaux : notebook-instance-name/LifecycleConfigOnStart ou notebook-instance-name/LifecycleConfigOnCreate

"This Notebook Instance type 'ml.m4.xlarge' is temporarily unavailable. We apologize for the inconvenience. Please try again in a few minutes, or try a different instance type."

Cette erreur se produit lorsqu'Amazon Elastic Compute Cloud (Amazon EC2) ne dispose pas d'une capacité disponible suffisante pour le type d'instance que vous avez sélectionné. La capacité varie en fonction de la demande pour ce type d'instance dans cette région à ce moment. Réessayez la demande ultérieurement pour voir si les niveaux de capacité ont changé. Vous pouvez également choisir un autre type d'instance.

Erreurs internes HTTP 500

Une erreur HTTP 500 indique qu'une erreur inattendue s'est produite lors de la création de l'instance de bloc-notes. Pour exclure les problèmes transitoires, réessayez de créer l'instance de bloc-notes.


Informations connexes

Associer des référentiels Git aux instances de bloc-notes SageMaker

Erreurs courantes

AWS OFFICIEL
AWS OFFICIELA mis à jour il y a un an