Skip to content

¿Cómo puedo solucionar los errores cuando uso el rastreador de AWS Glue para rastrear archivos .csv?

2 minutos de lectura
0

Quiero solucionar los problemas comunes que se producen cuando uso el rastreador de AWS Glue para rastrear datos en archivos .csv.

Descripción corta

Algunos problemas comunes que provocan errores en el clasificador .csv integrado en el rastreador de AWS Glue incluyen:

  • La primera fila de datos no se especifica como encabezado y, a continuación, los datos muestran encabezados de columna genéricos, como col1 y col2.
  • No se reconocen los datos entre comillas, como «ABC» y «XYZ».

Resolución

Cree un clasificador .csv personalizado y, a continuación, agregue el clasificador personalizado a un nuevo rastreador de AWS Glue.

Creación de un clasificador personalizado

Utilice la consola de AWS Glue para crear un clasificador personalizado. Utilice los siguientes parámetros para definir el clasificador:

  • En Nombre del clasificador, introduzca un nombre único.
  • En Tipo de clasificador, elija CSV.
  • En Delimitador de columnas, seleccione el símbolo de coma.
  • En Símbolo de comillas, seleccione el símbolo de comillas.
  • En Encabezados de columna, elija Tiene encabezados.
    (Opcional) Si conoce los nombres de las columnas, introduzca los nombres de los encabezados. Asegúrese de separar los nombres con comas.

Nota: De forma predeterminada, el clasificador .csv usa Open CSV SerDe como biblioteca de serialización. Open CSV SerDe admite datos con comillas dobles y el encabezado que especifique. Para obtener más información, consulte Bibliotecas de SerDe CSV.

Adición del clasificador personalizado a un nuevo rastreador de AWS Glue

Cree un nuevo rastreador de AWS Glue. Utilice los siguientes parámetros para configurar el rastreador:

  • En Origen de datos, seleccione el almacén de datos en el que se encuentran los archivos .csv.
  • En Ruta de inclusión, introduzca la ruta de inclusión de los archivos .csv.
  • En Clasificadores personalizados, agregue el clasificador .csv personalizado que creó a la lista de clasificadores.
  • En Rol de IAM, seleccione un rol de AWS Identity and Access Management (IAM) que tenga los permisos necesarios para rastrear su archivo .csv.
OFICIAL DE AWSActualizada hace 7 meses