Cuando analizo un archivo .dat de ancho fijo con un clasificador integrado, mi rastreador DE AWS Glue clasifica el archivo como DESCONOCIDO.
Descripción corta
Los clasificadores integrados no pueden analizar archivos de datos de ancho fijo. En su lugar, utilice un clasificador personalizado de Grok.
Resolución
Crear el clasificador personalizado de Grok
Siga estos pasos.
-
Abra la consola de AWS Glue.
-
En el panel de navegación, elija Clasificadores.
-
Elija Agregar clasificador y, a continuación, introduzca lo siguiente:
En Nombre del clasificador, introduzca un nombre único.
En Tipo de clasificador, elija Grok.
En Clasificación, introduzca una descripción del formato o tipo de datos que va a clasificar.
En el patrón de Grok, introduzca los patrones integrados que quiera que AWS Glue utilice para buscar coincidencias en sus datos. Para analizar un archivo .dat no necesita un delimitador entre los campos. Como cada campo tiene una longitud conocida, utilice un patrón de expresiones regulares para buscar coincidencias.
Ejemplo:
(?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})
(Opcional) En Patrones personalizados, introduzca los patrones personalizados que quiera usar. El patrón Grok que clasifica los datos es quien referencia estos patrones. Cada patrón personalizado debe estar en una línea independiente. Para obtener más información, consulte Escribir clasificadores personalizados de Grok.
-
Seleccione Crear.
Crear y ejecutar el rastreador
Siga estos pasos:
- En el panel de navegación, elija Rastreadores.
- Seleccione Añadir rastreador.
- En Nombre del rastreador, introduzca un nombre único.
- Elija la flecha situada junto a la sección Etiquetas, descripción, configuración de seguridad y clasificadores (opcional) y, a continuación, vaya a la sección Clasificadores personalizados.
- Seleccione Añadir junto al clasificador de clientes que creó anteriormente y, a continuación, elija Siguiente.
- En la página Especificar el tipo de origen del rastreador, elija Almacenes de datos y, a continuación, elija Siguiente.
- En la página Añadir un almacén de datos, introduzca lo siguiente:
En Elegir un almacén de datos, elija su almacén de datos preferido.
En Incluir ruta, introduzca la ruta del archivo .dat.
- Seleccione Siguiente y, a continuación, confirme si desea agregar otro almacén de datos.
- En la página Elija un rol de IAM, seleccione un rol de AWS Identity and Access Management (IAM) existente o cree uno nuevo. Después, seleccione Siguiente.
- En Frecuencia, elija Ejecutar bajo demanda y, a continuación, elija Siguiente.
- En la página Configurar la salida del rastreador en Base de datos, elija la base de datos en la que desea crear la tabla. Después, seleccione Siguiente.
- Seleccione Finalizar.
- Cuando el estado del rastreador cambie a Listo, seleccione el nombre del rastreador y, a continuación, elija Ejecutar rastreador.
- Espere a que termine el rastreador y, a continuación, seleccione Tablas en el panel de navegación. La clasificación debe coincidir con la clasificación que especificó para el clasificador personalizado de Grok.
Información relacionada
Creación de clasificadores con la consola de AWS Glue
Definición y administración de clasificadores