Come posso risolvere gli errori di etichettatura di Amazon SageMaker Ground Truth?

4 minuti di lettura
0

Desidero risolvere gli errori di etichettatura di Amazon SageMaker Ground Truth. -oppure- I miei dipendenti SageMaker sono inattivi. -oppure- La visualizzazione delle attività per i miei dipendenti SageMaker richiede molto tempo.

Risoluzione

SageMaker Ground Truth invia innanzitutto un batch di 10 attività ai dipendenti SageMaker per le annotazioni. Questo batch viene utilizzato per verificare e assicurarsi che il processo di etichettatura sia configurato correttamente. Quindi, Ground Truth invia batch più grandi di attività ai lavoratori per le annotazioni basate sul valore MaxConcurrentTaskCount.

MaxConcurrentTaskCount definisce il numero massimo di oggetti dati che possono essere etichettati contemporaneamente dagli operatori umani. Se utilizzi la console, questo parametro è impostato su 1.000. Se utilizzi CreateLabelingJob, è possibile impostare questo parametro su qualsiasi numero intero compreso tra 1 e 1.000, inclusi.

Dopo che Ground Truth riceve le etichette, le elabora con una funzione di consolidamento AWS Lambda. Con questa funzione, le annotazioni finali vengono scritte nel file manifesto o nell'output del Servizio di notifica semplice Amazon (Amazon SNS). Quindi, Ground Truth torna indietro per leggere un altro batch di attività in base al valore MaxConcurrentTaskCount dal file manifesto di input o dall'argomento Amazon SNS.

Risoluzione dei problemi relativi alla latenza delle attività e ai lavoratori inattivi

  • Assicurati che il valore MaxConcurrentTaskCount sia impostato su una dimensione che consenta ai lavoratori di completare l'intero batch entro il TaskAvailabilityLifetimeInSeconds specificato. Il valore massimo per questo parametro è 1000.
  • Assicurati che NumberOfHumanWorkersPerDataObject sia impostato su un valore adatto al tuo caso d'uso. Ad esempio, se il numero di lavoratori per oggetto da etichettare è impostato su 3, ogni oggetto deve essere etichettato da tre lavoratori. Se due lavoratori completano il batch corrente, il batch successivo non viene assegnato finché il terzo non ha terminato il batch. Se un lavoratore privato nota che un processo scompare dal portale, potrebbe aver terminato un batch ed essere inattivo mentre attende che un nuovo batch sia disponibile.
  • Assicurati che TaskAvailabilityLifetimeInSeconds sia impostato su un valore adatto al tuo caso d'uso. Questo valore rappresenta il tempo totale in cui le attività sono disponibili per i lavoratori. Il valore massimo che è possibile impostare per questo parametro è 864.000 secondi (10 giorni). È consigliabile suddividere il set di dati di input in più processi e indirizzarli allo stesso team di lavoro nelle seguenti condizioni:
  • Il numero di oggetti nel processo di etichettatura è elevato.
  • Il processo non è riuscito perché il tempo di attesa ha superato il valore di TaskAvailabilityLifetimeInSeconds.
  • Assicurati che TaskTimeLimitInSeconds sia impostato su un valore adatto al tuo caso d'uso. Se hai bisogno di controllare il tempo impiegato dai lavoratori per completare un'attività per assicurarti che le attività vengano annotate e che venga assegnato il batch successivo, valuta la possibilità di impostare un valore appropriato per questo limite di tempo.

Risoluzione degli errori di etichettatura

Controlla le autorizzazioni

Assicurati di avere le autorizzazioni giuste per creare un processo di etichettatura, accedere ai dati di input e accedere al bucket Amazon Simple Storage Service (Amazon S3) per i dati di output. Per ulteriori informazioni, consulta Fase 1: Prima di iniziare.

Assicurati di quanto segue:

  • Il bucket Amazon S3 si trova nella stessa regione del processo di etichettatura Ground Truth.
  • Al bucket è allegata una policy CORS. Per ulteriori informazioni, consulta Requisiti di autorizzazione CORS.

Controlla il file manifesto di output

Controlla il file manifesto di output che hai specificato nel bucket S3 per archiviare i file di output. In questo set di dati di output, puoi visualizzare i metadati di eventuali annotazioni non riuscite che potrebbero aver portato a processi di etichettatura non riusciti.

Esempio:

{"source-ref":"s3://sagemaker-output-labeling-bucket-example/example.jpeg","example-metadata":{"retry-count":1,"failure-reason":"ClientError: Annotation tasks expired.  Probable Reasons are 1) TaskAvailabilityLifetimeInSeconds parameter is too small.  2) Reward is too low for workers to work on the task.  3) If you use a custom html template, your template may be broken.  4) Data (image/video/text) sent for annotation is broken or too big, preventing completion.  5) All workers declined the tasks.","human-annotated":"true"}}

I lavoratori possono rifiutare le attività a causa di istruzioni poco chiare, dati di input danneggiati (non visualizzati correttamente) o qualche altro problema relativo all'attività. Se tutti i lavoratori rifiutano, l'oggetto viene contrassegnato come scaduto e non inviato a nessun altro lavoratore.

Puoi monitorare se i dipendenti rifiutano, inviano o restituiscono un'attività utilizzando Eventi Amazon CloudWatch. Per ulteriori informazioni, consulta Monitora lo stato dei processi di etichettatura.

Controlla il file manifesto di input

Assicurati che il file manifesto di input soddisfi tutti i requisiti degli oggetti JSON elencati. Per ulteriori informazioni, consulta Usa un file manifesto di input.


Informazioni correlate

Crea un processo di etichettatura

Controlla il flusso di oggetti di dati inviati ai lavoratori

Monitora i processi di etichettatura

AWS UFFICIALE
AWS UFFICIALEAggiornata 2 anni fa