标记有以下标签的问题: AWS Glue
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
【以下的问题经过翻译处理】 客户想要将 SageMaker notebook 连接到 Glue Catalog,但由于安全限制不允许使用开发人员端点。
我似乎无法在 Glue Catalog API 上找到允许这样做的文档,或如何完成此操作的示例。任何链接或指针将不胜感激。
1
回答
0
点赞数
45
检视次数
【以下的问题经过翻译处理】 我将 csv 数据上传到 S3 存储桶,让 Glue 将它们转换为表供以后使用。我希望所有的列都作为字符串加载,而不用一个一个地指定每个列的名称。我们如何配置 Glue 将所有列加载为字符串,而不是转换为 bigint 等?
1
回答
0
点赞数
35
检视次数
【以下的问题经过翻译处理】 使用 AWS CloudFormation 创建 AWS Glue ETL 作业时,如何指定高级选项,例如作业可能需要的其他 JAR、用于 KMS 加密的特殊安全配置参数等?
1
回答
0
点赞数
45
检视次数
如何通过编程方式创建Glue工作流程?lg...
【以下的问题经过翻译处理】 有没有办法以编程方式创建 Glue 工作流?
我查看了...
1
回答
0
点赞数
26
检视次数
【以下的问题经过翻译处理】 我正在尝试从 S3 读取数据,对其进行转换并将其插入到我在数据目录中创建的表中。
我的 ETL 作业使用 create\_dynamic\_frame 读取数据,转换为 Spark DataFrame,进行转换,转换回 Dynamic DataFrame,然后将该帧写入数据目录。
我像这样写入数据目录表:
```
DataCatalogtable_node2...
1
回答
0
点赞数
36
检视次数
【以下的问题经过翻译处理】 客户报告说Glue Crawler爬虫是单线程的,每次只能运行一个。这个理解正确吗?
请问设置爬虫的最佳实践是什么?客户有几十个需要频繁抓取的数据集,他们如何同时运行多个爬虫以快速完成Schema检测或数据更改检测?
谢谢。
1
回答
0
点赞数
1
检视次数
自动创建目标架构的Gluelg...
【以下的问题经过翻译处理】 有人可以澄清 GLUE 是否应该能够在加载数据之前在我的目标数据库中自动创建表吗?
在设置从 RDS 到 Redshift 的 ETL 作业时,我无法在选项中找到任何内容:
* 在目标中创建表
* 使用数据目录中的表并更新数据目标
由于数据已经编目,似乎应该自动创建schema,但我还没有成功让它发挥作用。
谢谢!
1
回答
0
点赞数
10
检视次数
运行 Glue Crawler 时出错lg...
【以下的问题经过翻译处理】 你好,
作为 Lake Formation 设置的一部分,我正试着对S3上的一些数据进行分类。我使用crawler从 S3 桶中读取 CSV 文件。Crawler被设置了默认的 AWSGlueServiceRoleDefault IAM 角色,该角色具有对 S3 的完全访问权限。但是作业一直失败并出现以下错误:
ERROR : Insufficient Lake...
1
回答
0
点赞数
35
检视次数
【以下的问题经过翻译处理】 大家好,
我正在尝试使用Jupyter Notebook创建一个Glue作业,但是似乎无法导入外部模块。我按照这里的文档安装了外部模块<https://docs.aws.amazon.com/glue/latest/ug/notebook-getting-started.html>。
```
%additional_python_modules...
1
回答
0
点赞数
29
检视次数
【以下的问题经过翻译处理】 我刚开始使用AWS Glue,想通过AWS Glue爬虫crawler来访问指定路径bucket/basefolder下的文件。
下面是我的文件夹结构:
```
bucket/basefolder
subfolder1
logfolder
log1.json
file1.parquet
...
1
回答
0
点赞数
22
检视次数
【以下的问题经过翻译处理】 当我尝试在AWS Glue中添加连接时,我看到我们预配的Aurora DB集群已列出,但没有列出我们的Serverless集群。这是否是符合预期 ? 是否有一种方法将AWS Glue连接到无服务器Aurora DB集群?
1
回答
0
点赞数
62
检视次数
【以下的问题经过翻译处理】 当通过Airflow启动glue作业时遇到错误`ERROR - Failed to run aws glue job, error: An error occurred (ResourceNumberLimitExceededException) when calling the StartJobRun operation: Reached the limit...
1
回答
0
点赞数
38
检视次数