将SQL Server表格提取到Glue作业中的数据目录时没有问题,但是两个表格就会出问题?

0

【以下的问题经过翻译处理】 我使用Glue作业编辑器创建了一个简单的作业,数据源使用了SQL Server 数据库,并通过列进行了过滤(SQL查询),并将其输出到了一个S3存储桶中,以便我可以使用Athena进行查询,一切都可以完美地运行。

现在想要同样的作业用于其他多个表格,所以我编辑了代码,只是复制了以“job = Job(glueContext)”开头的代码,但无论怎么做,这两个表格都被创建和加载得很奇怪,例如一个表格应该有3条记录,另一个表格应该有2条记录,但它们最终都会得到大约20条记录,大多数行的值为空。

不知道过程中做错了什么?还有其他什么方法可以实现这个目的?我想过使用爬虫获取模式并首先将其添加到数据目录中,但我创建了一个简单的爬虫,它只是不停地运行并最终失败了,显示“ Internal Service Exception”。不确定还有其他什么方法可以实现这一目标,感谢任何见解。

profile picture
EXPERTE
gefragt vor 5 Monaten63 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 我发现了一件对大家可能都很明显但对我来说不是的问题:Athena将一个文件夹中的所有文件都视为同一张表来查询,也就是说我必须将每个表放置在不同的文件夹中。

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen