Ir para o conteúdo

Por que o crawler do AWS Glue classifica meu arquivo de dados de largura fixa como DESCONHECIDO quando uso um classificador integrado para analisar o arquivo?

3 minuto de leitura
0

Quando analiso um arquivo .dat de largura fixa com um classificador integrado, meu crawler do AWS Glue classifica o arquivo como DESCONHECIDO.

Breve descrição

Os classificadores integrados não podem analisar arquivos de dados de largura fixa. Em vez disso, use um classificador personalizado grok.

Resolução

Crie o classificador personalizado grok

Conclua as etapas a seguir.

  1. Abra o console do AWS Glue.

  2. No painel de navegação, escolha Classificadores.

  3. Escolha Adicionar classificador e insira o seguinte:
    Em Nome do classificador, insira um nome exclusivo.
    Em Tipo de classificador, escolha Grok.
    Em Classificação, insira uma descrição do formato ou tipo de dados que você está classificando.
    Em Padrão grok, insira os padrões integrados que você deseja que o AWS Glue use para encontrar correspondências em seus dados. Para analisar um arquivo .dat, você não precisa de um delimitador entre os campos. Visto que cada campo tem um comprimento conhecido, use um padrão regex para encontrar correspondências.

    Exemplo:

    (?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})

    (Opcional) Em Padrões personalizados, insira os padrões personalizados que você deseja usar. Esses padrões são referenciados pelo padrão grok que classifica seus dados. Cada padrão personalizado deve estar em uma linha separada. Para obter mais informações, consulte Escrevendo classificadores personalizados grok.

  4. Escolha Criar.

Crie e execute o crawler

Conclua as etapas a seguir:

  1. No painel de navegação, escolha Crawlers.
  2. Escolha Adicionar crawler.
  3. Em Nome do crawler, insira um nome exclusivo.
  4. Escolha a seta ao lado da seção Tags, descrição, configuração de segurança e classificadores (opcional) e vá para a seção Classificadores personalizados.
  5. Escolha Adicionar ao lado do classificador personalizado que você criou anteriormente e, em seguida, escolha Avançar.
  6. Na página Especificar tipo de origem do crawler, escolha Armazenamentos de dados e, em seguida, escolha Avançar.
  7. Na página Adicionar um armazenamento de dados, insira o seguinte:
    Em Escolher armazenamento de dados, escolha seu armazenamento de dados preferido.
    Em Incluir caminho, insira o caminho para seu arquivo .dat.
  8. Escolha Avançar e, em seguida, confirme se você deseja adicionar outro armazenamento de dados.
  9. Na página Escolha um perfil do IAM, selecione um perfil existente do AWS Identity and Access Management (AWS IAM) ou crie um novo. Em seguida, escolha Avançar.
  10. Em Frequência, escolha Executar sob demanda e, em seguida, escolha Avançar.
  11. Na página Configurar a saída do crawler, em Banco de dados, escolha o banco de dados no qual você deseja criar a tabela. Em seguida, escolha Avançar.
  12. Escolha Concluir.
  13. Quando o status do crawler mudar para Pronto, selecione o nome do crawler e escolha Executar crawler.
  14. Aguarde a conclusão do crawler e escolha Tabelas no painel de navegação. A Classificação deve corresponder à classificação que você inseriu para o classificador personalizado grok.

Informações relacionadas

Criação de classificadores usando o console do AWS Glue

Definindo e gerenciando classificadores

AWS OFICIALAtualizada há um ano