AWS Glue 爬虫crawler中的文件排除模式exclude patterns设置无效

0

【以下的问题经过翻译处理】 我刚开始使用AWS Glue,想通过AWS Glue爬虫crawler来访问指定路径bucket/basefolder下的文件。 下面是我的文件夹结构:

bucket/basefolder
    subfolder1
        logfolder
            log1.json
        file1.parquet
    subfolder2
        logfolder
            log2.json
        file2.parquet
        file3.parquet

我想获取basefolder文件夹和子文件夹下的文件,并排除logfolder下的所有文件。 在爬虫设置中,文件排除模式exclude patterns设置如下:

logfolder/**
logfolder**
logfolder/*
*.json

但是爬虫仍然试图获取logfolder文件夹下的所有json文件,以上的排除模式都不起作用,希望能够得到专家的帮助。

profile picture
专家
已提问 4 个月前7 查看次数
1 回答
0

【以下的回答经过翻译处理】 您好,

我基于和您给的相同的S3文件夹结构,进行了测试。

指定的包含路径为: s3://bucket/basefolder/

排除模式为: **/logfolder/**

使用以上排除模式,可以让爬虫crawler忽略所有名为“logfolder”的文件夹中的文件。 您可以参考 - https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude

profile picture
专家
已回答 4 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则