1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 在 PySpark 中,您可以使用 forEachPartition 并为该分区调用 Kinesis 或任何外部 API,或者您也可以使用 map 并按记录调用 Kinesis。
# 方法 1:每个分区
def pushToKinesis(迭代器):
打印(列表(迭代器)[0]
#push to kinesis 使用 boto3 APIs
rdd.foreachPartition(pushToKinesis())
# 方法二:每条记录
def pushToKinesis(记录):
#push to kinesis 使用 boto3 APIs
rdd.map(lambda l: pushToKinesis(l))
下面的博文使用方法 2 调用 Amazon Comprehend: https://aws.amazon.com/blogs/machine-learning/how-to-scale-sentiment-analysis-using-amazon-comprehend-aws-glue-and-amazon-athena/
相关内容
- AWS 官方已更新 4 年前
- AWS 官方已更新 2 个月前
- AWS 官方已更新 4 年前
- AWS 官方已更新 2 年前