能同时运行多个Glue Crawler爬虫吗?

0

【以下的问题经过翻译处理】 客户报告说Glue Crawler爬虫是单线程的,每次只能运行一个。这个理解正确吗?

请问设置爬虫的最佳实践是什么?客户有几十个需要频繁抓取的数据集,他们如何同时运行多个爬虫以快速完成Schema检测或数据更改检测?

谢谢。

profile picture
专家
已提问 6 个月前1 查看次数
1 回答
0

【以下的回答经过翻译处理】 每个独立的Crawler都是单线程运行的,且不能同时执行同一个Crawler。默认限制是每个账户最多可以有50个Crawler,在同一时间多个独立的Crawler可以同时执行。

Crawler的设置细节请参考如下链接:https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html,如何选择配置Crawler,完全取决于客户的最终目标。

另外需要注意的是,一个单独的Crawler可以爬取多个输入数据存储。如果有多个单独的数据存储,需要在同一时间/频率内进行爬取,您可以让glue将它们合并成一个单一的Schema(在某些情况下),或者多个Schema(如果数据相互独立)。

profile picture
专家
已回答 6 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则