1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 你好,我们又见面了,
我一直在测试建议的解决方案(仅使用您的 AWS 论坛 xml 示例数据)。如果将 Databrics XML 库添加到粘合中,则可以让库推断您的模式(在我的情况下,它有两个文件,一个包含数组,另一个不包含数组):
从 pyspark.sql 导入 SparkSession
从 pyspark.sql.types 导入 *
df =spark.read.format('xml').options(rowTag='indices').load('s3_dir')
df.show()
df.printSchema()
如果你想提前声明模式,它将与此类似。
my_new_schema = StructType([
StructField('索引', ArrayType(StructType([
StructField('indexname', StringType()),
StructField('indexsymbol', StringType())
])))
])
df = spark.read.format('xml').options(rowTag='indices').load('s3_dir', schema = my_new_schema)
您需要将以下内容添加到 Glue Job 参数 Conf 中,以便将库添加到 Glue。
spark.jars.packages = com.databricks:spark-xml_2.12:0.13.0
最好的
相关内容
- AWS 官方已更新 9 个月前
- AWS 官方已更新 2 年前
- AWS 官方已更新 1 年前
- AWS 官方已更新 2 年前