标记有以下标签的问题: AWS Glue
AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning, and application development.
内容语言: 中文 (简体)
筛选问题
选择要筛选的标签
排序方式
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
189 条结果
【以下的问题经过翻译处理】 我正在用 Java 编写 Spark 作业以在 AWS Glue 上执行。它尝试使用 glueContext.getSource() 方法连接到 Postgres 数据库。它因以下 NullPointerException 而失败:
```
2023-04-20 14:57:01,183 错误 [main] glue.ProcessLauncher (Loggin...
1
回答
0
点赞数
126
检视次数
【以下的问题经过翻译处理】 尝试从单一的源加载表.. 源表包含 EMP NAME, ADDRESS 的数据... 目标表 A 包含 EMP ID(自动生成的主键)和 EMP NAME... 表 B 包含 EMP ID(外键)、ADDRESS ID(自动生成的主键)和 ADDRESS...
现在如何使用 AWS Glue 加载这些表?
没有找到合适的相关说明... 有人能帮忙解答一下吗?
1
回答
0
点赞数
112
检视次数
【以下的问题经过翻译处理】 在AWS控制台中,我只能将Worker类型从G.1X切换到G.2X,无法切换到Standard或G.025X,这是为什么?
1
回答
0
点赞数
97
检视次数
【以下的问题经过翻译处理】 我正试图在 CloudFormation Stack 内创建一个 Glue 表。我收到了以下错误提示:
>
> Cross account access is not supported for account that hasn't imported Athena catalog to Glue. Please refer to documentation: ht...
1
回答
0
点赞数
140
检视次数
【以下的问题经过翻译处理】 我有一个需求,需要创建ETL从100个数据文件(每个文件都有独特的模式)转换成一个公共格式的CSV文件。源文件在S3存储桶文件夹中(每个文件夹都是唯一的数据集)。有时需要在一个文件夹中联合多个文件,并在转换中编写业务逻辑。这些文件有数百万条记录。
我已经尝试使用Glue Cralwer和Glue jobs使用有限数据创建目标文件。 我的问题是,Glue在数百万条记录上...
1
回答
0
点赞数
126
检视次数
【以下的问题经过翻译处理】 初次接触Glue和Athena。我跟着AWS社区创建者的一个很好的示例来学习。但是,在我的实际用例中,我想从EventBridge事件的“ detail”部分捕获所有字段,并创建列。这是多层嵌套的。我无法弄清schema 发现过程。我尝试将一个文本文件发布到S3并让Glue Crawler程序工作,但没有成功。
1
回答
0
点赞数
121
检视次数
【以下的问题经过翻译处理】 在Glue作业中,勾选复选框可以启用Spark UI,并指定一个S3路径作为日志存储的位置。那该如何访问Spark UI的URL?
1
回答
0
点赞数
137
检视次数
【以下的问题经过翻译处理】 你好,
当创建 Glue DevEndpoint 时,它会作为 AWS 托管实例运行。有没有办法创建一个运行在客户端管理实例的 DevEndpoint?
1
回答
0
点赞数
95
检视次数
【以下的问题经过翻译处理】 无法从AWS Glue建立到Amazon Redshift的连接。以前使用相同的设置却可以。
1. 检查过 Redshift中的公共访问设置
2. 为S3创建VPC终端节点
3. 配置正确规则的安全组
4. 验证凭据
5. 验证附加到AWS Glue的IAM角色,甚至提供管理员特权
1
回答
0
点赞数
112
检视次数
【以下的问题经过翻译处理】 我使用AWS Glue Studio创建了一个ETL作业,执行以下过程。
1. 通过Glue数据目录中的表,从Oracle数据库表读取数据源。
2. 执行SQL语句"select * from tableA order by col1"。
3. 将DynamicFrame重新分区到1个输出。
4. 将DynamicFrame写入csv文件。
如果我勾选了"Autom...
1
回答
0
点赞数
131
检视次数
【以下的问题经过翻译处理】 我已经使用了通过`getResolvedOptions`函数检索的临时路径,作为`relationlize`函数的“staging_path”。
发现作业有时会失败 - 这意味着**不规则** - 因为作业在执行关系化函数后无法检索分段的表。
为了更好地理解,请在下面添加一些说明和代码。
如果有任何建议,请告知我,并请确认我们可以继续使用由`getResolvedOp...
1
回答
0
点赞数
105
检视次数
【以下的问题经过翻译处理】 我正在测试一个lambda函数,它会针对一个存储在S3 上的 Glue表执行批量小型Athena查询。
当我以管理员身份本地执行函数代码时,它会执行查询,它们从不出错,但当Lambda 函数执行它们时,可能有30个查询中的1个会失败(每个查询都相同,具有不同的分区约束,更改要搜索的文件日期范围)。
我甚至已经设置了代码,以便在原始查询失败时再次执行相同的查询,在大多...
1
回答
0
点赞数
89
检视次数