EMR客户问题

0

【以下的问题经过翻译处理】 一个客户正在使用EMR上的PySpark进行一些计算。

这些计算被保存在S3上,触发了一个SQS,该SQS会触发COPY命令传输到redshift。

到目前为止,一切顺利。

他们正在尝试找到解决方案,在redshift加载了新数据后,我们可以在那里摄取的特定项上运行一些查询。

他们认为可能可以在EMR本身中的每个项目后启动SQS进行计算(听起来有点复杂,不确定其可靠性)。

还需要澄清的是,在后处理和插入Redshift后,他们需要将其推送到DynamoDB或其他NoSQL解决方案以进行快速检索。

听起来合理吗?

profile picture
전문가
질문됨 6달 전36회 조회
1개 답변
0

【以下的回答经过翻译处理】 你可以查看这篇较旧的博客文章并针对你的使用案例进行修改。当复制命令将数据加载到Redshift中时,它会向Dynamo写入一个已处理的条目。你可以连接一个Lambda函数到Dynamo流上,这样就可以触发你想要在数据加载后运行的查询。

https://aws.amazon.com/blogs/big-data/a-zero-administration-amazon-redshift-database-loader/

profile picture
전문가
답변함 6달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인

관련 콘텐츠