标记有以下标签的问题: AWS Glue
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
【以下的问题经过翻译处理】 我有一个CSV文件,其中包含一个用双引号括起来文本字段,文本中含有逗号。默认情况下,Glue crawler会按照逗号,将内容拆分成列。有没有办法让Glue...
1
回答
0
点赞数
42
检视次数
【以下的问题经过翻译处理】 我们发现使用Glue dynamic frame将数据写入Redshift时,如果输入文件大于1GB,会出现错误。
**设置:**
Redshift群集:2个DC2节点
**Glue作业**
```
temp_df = glueContext.create_dynamic_frame.from_options(connection_type="s3",...
1
回答
0
点赞数
31
检视次数
【以下的问题经过翻译处理】 当我运行一个Glue job来处理一些CSV文件时,我使用S3分区(例如按照年份和月份)来存储结果,但是当我在S3中查看时,在“目录层级结构”y=1018/m=1下创建的“文件”个数不是一个,而是创建了许多小文件(每个约9MB)。
1. 可以控制这种行为吗? 即我能否指定每个指定的分区仅会产生一个文件?或者我可以指定每个文件被分成多块时,每块实际的大小?
2....
1
回答
0
点赞数
11
检视次数
Glue将空字符串读为null值。lg...
【以下的问题经过翻译处理】 团队您好,
我运行了一个 AWS Glue Job,从 S3 存储桶上的 CSV 文件读取数据到我的 Aurora MySQL 数据库中。
但它将 CSV 中的空字符串("")解释为 null 值,然后尝试将其插入到非空列中。导致我的Job执行失败。
是否有特定的 Glue / PySpark 代码配置可以防止作业将空字符串视为 null?
谢谢!
1
回答
0
点赞数
70
检视次数
S3批量文件出发Glue作业lg...
【以下的问题经过翻译处理】 我有一个AWS Glue作业,可以从S3读取20个CSV文件并将它们注入到MySQL RDS中。 这20个文件都在S3上,但它们不会在相同的时间到达。我应该如何配置Glue作业/事件规则,使得只有当所有20个文件都被上传到S3上时,自动触发Glue作业?谢谢。
1
回答
0
点赞数
27
检视次数
从Glue作业发送电子邮件lg...
【以下的问题经过翻译处理】 我有一个AWS Glue作业,可以从S3中读取数据并将其注入RDS MySQL中。
我正在尝试在作业结束时(从pySpark...
1
回答
0
点赞数
42
检视次数
从Glue脚本访问作业参数lg...
【以下的问题经过翻译处理】 我定义了一个接受参数的Glue任务,但找不到如何访问这些参数的示例?
1
回答
0
点赞数
2
检视次数
【以下的问题经过翻译处理】 我想在Glue ETL作业中使用Pandas。我正在从S3读取,写入到Data Catalog。我正在尝试找到一个基本示例,可以从S3中读取,将其转换为Pandas DF,并进行我的操作,然后将其写入到Data Catalog。看起来我可能需要先将其写入Dynamic DataFrame,然后再发送到data...
1
回答
0
点赞数
23
检视次数
【以下的问题经过翻译处理】 在 Glue 控制台(Glue 3.0 - python 和 spark),我需要在自动化流程中覆盖 S3 存储桶的数据。我尝试在脚本中使用`glueContext.purge_s3_path( "s3://bucket-to-clean-path/", { "retentionPeriod": 1, "manifestFilePath":...
1
回答
0
点赞数
11
检视次数
【以下的问题经过翻译处理】 数据以CSV格式上传至S3存储桶中,使用Glue对其进行爬取。添加一个爬虫,将其指向S3存储桶,并为其设置了一个具有AWSGLueServiceRole托管策略的IAM角色。
运行爬虫,在存储桶中有多个CSV文件的情况下,没有识别出任何表。检查了CloudWatch日志,发现爬虫在从S3获取文件时收到了403 Access denied error:
ERROR :...
1
回答
0
点赞数
61
检视次数
【以下的问题经过翻译处理】 大家好,
我有一个Step Function用于调用AWS Glue作业,步骤定义如下:
```
"glue-redshift-call": {
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
...
1
回答
0
点赞数
27
检视次数
【以下的问题经过翻译处理】 需求是将来自RDS的多张表格进行ETL,然后将数据加载到S3和Redshift中。
例如,客户需要将来自六张表格的数据合并后加载到S3中。
我尝试设置Glue Jobs以完成这一工作,但是还不明确将表格加载到S3或Redshift的最佳实践:当创建一个Glue Job时,只能选择1个表作为数据源。
是否需要为每一个表格创建一个Glue...
1
回答
0
点赞数
7
检视次数