Quero usar os fluxos de trabalho do AWS Glue para iniciar automaticamente um trabalho quando uma execução do crawler for concluída.
Breve descrição
Para iniciar um trabalho quando a execução de um crawler for concluída, crie um fluxo de trabalho do AWS Glue e dois gatilhos. Um gatilho é para o crawler e o outro é para o trabalho. Esse método exige que você inicie o crawler na página Fluxos de trabalho no console do AWS Glue.
Observação: Você também pode usar uma função do AWS Lambda e uma regra do Amazon EventBridge para automatizar a execução de trabalhos. Quando você escolhe essa opção, a função do Lambda está sempre ativada. A função monitora o crawler independentemente de onde ou quando você inicia a função. Para mais informações, consulte Como posso usar uma função do Lambda para iniciar automaticamente um trabalho do AWS Glue quando a execução do crawler for concluída?
Resolução
Pré-requisitos: Para concluir as etapas de resolução, você deve ter um trabalho de extração, transformação e carregamento (ETL) do AWS Glue e um crawler do AWS Glue. Você também deve ter um perfil do AWS Identity and Access Management (AWS IAM) para o AWS Glue que tem a política AWSGlueServiceRole anexada.
Crie o fluxo de trabalho
Conclua as etapas a seguir:
- Abra o console do AWS Glue.
- No painel de navegação, escolha Fluxos de trabalho e, em seguida, escolha Adicionar fluxo de trabalho.
- Insira um nome para o fluxo de trabalho e escolha Adicionar fluxo de trabalho. O novo fluxo de trabalho aparece na lista na página Fluxos de trabalho.
Crie o gatilho para o crawler
Conclua as etapas a seguir:
- Na página Fluxos de trabalho, selecione seu novo fluxo de trabalho e escolha a guia Grafo.
- Escolha Adicionar gatilho e, em seguida, escolha a guia Adicionar novo. Em Tipo de gatilho, escolha Sob demanda.
- Escolha Adicionar. O gatilho aparece no gráfico.
- No gráfico, escolha Adicionar nó.
- Na guia Crawlers, selecione seu crawler e escolha Adicionar.
Crie o gatilho para o trabalho do AWS Glue
Conclua as etapas a seguir:
- No menu Ação acima do grafo, escolha Adicionar gatilho.
- Escolha a guia Adicionar novo e, em seguida, selecione as seguintes opções:
Em Tipo de gatilho, escolha Evento.
Em Lógica do gatilho, escolha Iniciar depois de TODOS os eventos assistidos.
- Escolha Adicionar. O gatilho aparece no grafo.
- No grafo, à esquerda do gatilho da tarefa que você acabou de criar, escolha Adicionar nó.
- Na guia Crawlers, selecione seu crawler e escolha Adicionar. O gatilho aparece no gráfico.
- No gráfico, à direita do gatilho do trabalho que você acabou de criar, escolha Adicionar nó.
- Na guia Trabalhos, selecione o trabalho que você deseja iniciar quando a execução do crawler for concluída e escolha Adicionar.
Teste o fluxo de trabalho
Conclua as etapas a seguir:
- No menu Ações, ao lado do botão Adicionar fluxo de trabalho, escolha Executar. A coluna Status da última execução muda para Em execução.
- Verifique a guia Gráfico para ver o status do fluxo de trabalho. Ou abra seu crawler ou trabalho correspondente para confirmar que ele está em execução.
Informações relacionadas
Criação e construção manual de um fluxo de trabalho no AWS Glue