1 個回答
- 最新
- 最多得票
- 最多評論
0
【以下的回答经过翻译处理】 在 PySpark 中,您可以使用 forEachPartition 并为该分区调用 Kinesis 或任何外部 API,或者您也可以使用 map 并按记录调用 Kinesis。
# 方法 1:每个分区
def pushToKinesis(迭代器):
打印(列表(迭代器)[0]
#push to kinesis 使用 boto3 APIs
rdd.foreachPartition(pushToKinesis())
# 方法二:每条记录
def pushToKinesis(记录):
#push to kinesis 使用 boto3 APIs
rdd.map(lambda l: pushToKinesis(l))
下面的博文使用方法 2 调用 Amazon Comprehend: https://aws.amazon.com/blogs/machine-learning/how-to-scale-sentiment-analysis-using-amazon-comprehend-aws-glue-and-amazon-athena/
相關內容
- 已提問 10 個月前
- AWS 官方已更新 6 個月前
- AWS 官方已更新 1 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 6 個月前