如何将实时数据发送到Amazon Redshift?

0

【以下的问题经过翻译处理】 我需要一个分析工具,用于分析产品在网站上发布广告时发送的日志或数据。该产品每分钟发送约10万个事件或更多。所有数据都对分析很重要,因此,我不能承受数据丢失的风险。

考虑到性能效率、数据一致性和成本优化等因素,最佳的将这些数据发送到Amazon Redshift的方式是什么?

profile picture
전문가
질문됨 5달 전29회 조회
1개 답변
0

【以下的回答经过翻译处理】 如果数据通过Amazon Kinesis Data Streams (KDS)流式传输,则请选择以下选项之一:

  1. Kinesis Data Streams --> Lambda,使用Redshift Data API --> Redshift
  2. Kinesis Data Streams --> Kinesis Firehose --> Redshift
  3. Kinesis Data Streams --> Kinesis Firehose --> Amazon S3 (分区) <-- Redshift Spectrum (定期运行AWS Glue爬虫)

使用这些选项,数据一收到就可以进行查询。但是,有时您可能需要等待相当长一段时间才能查询数据。

为了更具成本效益,可以采取以下方法: 首先,通过Kinesis Data Streams --> Kinesis Firehose --> S3 --> Lambda --> S3 (优化为Parquet或ORC)将数据写入Amazon S3。然后,定期(例如每小时)运行AWS Glue爬虫以刷新AWS Glue数据目录。使用AWS Glue数据目录通过Amazon Spectrum Spectrum从Redshift查询数据。

profile picture
전문가
답변함 5달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인