将SQL Server表格提取到Glue作业中的数据目录时没有问题,但是两个表格就会出问题?

0

【以下的问题经过翻译处理】 我使用Glue作业编辑器创建了一个简单的作业,数据源使用了SQL Server 数据库,并通过列进行了过滤(SQL查询),并将其输出到了一个S3存储桶中,以便我可以使用Athena进行查询,一切都可以完美地运行。

现在想要同样的作业用于其他多个表格,所以我编辑了代码,只是复制了以“job = Job(glueContext)”开头的代码,但无论怎么做,这两个表格都被创建和加载得很奇怪,例如一个表格应该有3条记录,另一个表格应该有2条记录,但它们最终都会得到大约20条记录,大多数行的值为空。

不知道过程中做错了什么?还有其他什么方法可以实现这个目的?我想过使用爬虫获取模式并首先将其添加到数据目录中,但我创建了一个简单的爬虫,它只是不停地运行并最终失败了,显示“ Internal Service Exception”。不确定还有其他什么方法可以实现这一目标,感谢任何见解。

profile picture
专家
已提问 5 个月前57 查看次数
1 回答
0

【以下的回答经过翻译处理】 我发现了一件对大家可能都很明显但对我来说不是的问题:Athena将一个文件夹中的所有文件都视为同一张表来查询,也就是说我必须将每个表放置在不同的文件夹中。

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则