EMR客户问题

0

【以下的问题经过翻译处理】 一个客户正在使用EMR上的PySpark进行一些计算。

这些计算被保存在S3上,触发了一个SQS,该SQS会触发COPY命令传输到redshift。

到目前为止,一切顺利。

他们正在尝试找到解决方案,在redshift加载了新数据后,我们可以在那里摄取的特定项上运行一些查询。

他们认为可能可以在EMR本身中的每个项目后启动SQS进行计算(听起来有点复杂,不确定其可靠性)。

还需要澄清的是,在后处理和插入Redshift后,他们需要将其推送到DynamoDB或其他NoSQL解决方案以进行快速检索。

听起来合理吗?

profile picture
EXPERTO
preguntada hace 6 meses36 visualizaciones
1 Respuesta
0

【以下的回答经过翻译处理】 你可以查看这篇较旧的博客文章并针对你的使用案例进行修改。当复制命令将数据加载到Redshift中时,它会向Dynamo写入一个已处理的条目。你可以连接一个Lambda函数到Dynamo流上,这样就可以触发你想要在数据加载后运行的查询。

https://aws.amazon.com/blogs/big-data/a-zero-administration-amazon-redshift-database-loader/

profile picture
EXPERTO
respondido hace 6 meses

No has iniciado sesión. Iniciar sesión para publicar una respuesta.

Una buena respuesta responde claramente a la pregunta, proporciona comentarios constructivos y fomenta el crecimiento profesional en la persona que hace la pregunta.

Pautas para responder preguntas