Perché l'istanza del notebook Amazon SageMaker si blocca nello stato In sospeso e poi non riesce?

4 minuti di lettura
0

Quando creo o avvio un'istanza del notebook Amazon SageMaker, l'istanza passa allo stato In sospeso. L'istanza del notebook sembra bloccata in questo stato e quindi non riesce.

Breve descrizione

Lo stato In sospeso indica che SageMaker sta creando l'istanza del notebook. Se una qualsiasi fase del processo di creazione non riesce, SageMaker tenta di creare nuovamente il notebook. Questo è il motivo per cui un notebook potrebbe rimanere nello stato In sospeso più a lungo del previsto. Se SageMaker non riesce ancora a creare l'istanza del notebook, lo stato alla fine cambia in Non riuscito.

Risoluzione

Conferma il motivo dell'errore

Controlla la risposta FailureReason nell'API DescribeNotebookInstance. Puoi anche trovare il motivo dell'errore sulla console SageMaker:

  • Per visualizzare una finestra pop-up che mostra una versione abbreviata del motivo dell'errore, metti in pausa su Non riuscito nella colonna Stato.
  • Per visualizzare il motivo completo dell'errore, scegli il nome dell'istanza del notebook. Il motivo dell'errore viene visualizzato nella parte superiore della sezione delle impostazioni dell'istanza del notebook.

Usa il motivo dell'errore per risolvere la causa principale.

Errori comuni

"fatale: impossibile accedere a 'https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples/': Connessione alla porta 443 di github.com non riuscita: Connessione scaduta"

Questo errore si verifica quando la configurazione di rete per l'istanza del notebook non supporta il nome di dominio o la connessione per il repository Git esterno.

**Importante:**le istanze del notebook distribuite in un cloud privato virtuale (VPC) non ereditano automaticamente tabelle di routing personalizzate, come le tabelle di routing della sottorete per le connessioni di peering VPC. Se hai bisogno di una tabella di routing personalizzata, crea uno script di configurazione del ciclo di vita che aggiunga il percorso all'avvio. Per ulteriori informazioni, consulta Informazioni sulle configurazioni di rete delle istanze del notebook Amazon SageMaker e sulle opzioni di routing avanzate.

Per verificare che la connessione Git sia attiva e che sia possibile connettersi al repository da un'istanza del notebook: Crea una nuova istanza di notebook senza un repository Git associato. Quindi, apri la console Jupyter e usa una sessione del terminale per eseguire i seguenti comandi:

1.FSPResolve il nome host del server:

dig repo_hostname

Se la sezione delle risposte dell'output è vuota, il notebook non è stato in grado di risolvere il nome host. Ad esempio, la sezione delle risposte per github.com viene visualizzata come:

;; ANSWER SECTION:
github.com.    16  IN     A   20.248.137.48

2.FSPIf la sezione delle risposte dell'output contiene una risposta, la risoluzione del nome di dominio funziona. È quindi possibile eseguire il seguente comando per testare la connessione al nome host:

curl -v your-git-repo-url:443

3.FSPIf la connessione viene rifiutata o si esaurisce, verifica le regole del gruppo di sicurezza VPC e le tabelle di routing. Se la connessione ha esito positivo, usa i comandi git per testare le tue credenziali:

git pull https://your-git-repo-url

"Lifecycle Configuration failed"

Se uno script di configurazione del ciclo di vita viene eseguito per più di cinque minuti, non riesce e l'istanza del notebook non viene né creata né avviata. Per suggerimenti su come ridurre l'esecuzione degli script, consulta Customize a notebook instance using a lifecycle configuration script. Per risolvere i problemi con lo script, controlla i log di Amazon CloudWatch per la configurazione del ciclo di vita:

  • Gruppo di log: /aws/sagemaker/NotebookInstances
  • Flusso di log: notebook-instance-name/LifecycleConfigOnStart o notebook-instance-name/LifecycleConfigOnCreate

"Questo tipo di istanza Notebook 'ml.m4.xlarge' non è temporaneamente disponibile. Ci scusiamo per l'inconveniente. Riprova tra qualche minuto o prova con un altro tipo di istanza."

Questo errore si verifica quando Amazon Elastic Compute Cloud (Amazon EC2) non dispone di capacità disponibile sufficiente per il tipo di istanza selezionato. La capacità varia in base alla domanda di quel tipo di istanza in quella regione in quel momento. Riprova la richiesta più tardi per verificare se i livelli di capacità sono cambiati. Oppure, scegli un tipo di istanza diverso.

Errori interni HTTP 500

Un errore HTTP 500 indica che si è verificato un errore imprevisto durante la creazione dell'istanza del notebook. Per escludere problemi transitori, prova a creare nuovamente l'istanza del notebook.


Informazioni correlate

Associa i repository Git alle istanze notebook SageMaker

Errori comuni

AWS UFFICIALE
AWS UFFICIALEAggiornata un anno fa