Redshift CloudWatch 警报

0

【以下的问题经过翻译处理】 大家好, 是否有任何文件可以阐述保持跟踪 Redshift 资源使用/资源冲突/阻止查询的最佳/必须的云警报。

背景 - 我们已经看到了一些情况,其中我们的 Redshift 集群变得不响应,直到一些阻塞查询被终止。但是,这种手动干预会消耗大量人工时间。请注意,在大多数这样的情况下,我们发现 CPU 使用率/集群性能参数是正常的。我看到“按优先级平均队列等待时间”大约是9分钟。总扫描的数据也看起来正常。我想看看是否有办法通过云监视警报识别此类异常。

对此方面的任何输入都将不胜感激。

profile picture
专家
已提问 5 个月前28 查看次数
1 回答
0

【以下的回答经过翻译处理】 不同的书籍中应该会有很多关于该工具的内容,对于我领导的团队,我们追踪以下几个方面:

  1. 监控集群 CPU 利用率:您可以设置警报来触发,如果集群的平均 CPU 利用率超过了某个阈值。这可能表示该集群正在承受重负荷,并可能需要额外的资源或优化。

  2. 监控队列等待时间:您可以按优先级监控查询的平均队列等待时间。如果等待时间持续很长,则可能表示集群正在承受重负荷,或存在阻塞查询的情况。

  3. 监控扫描的数据:您可以设置警报,如果查询扫描的数据量超过了某个阈值,则会触发警报。这可能表示查询正在执行全表扫描,或者该集群正在承受重负荷。

  4. 监控磁盘空间:您可以设置警报,如果集群使用的磁盘空间超过了某个阈值,则会触发警报。这可能表示该集群的空间不足,可能需要调整大小,或需要删除或将数据移动到冷存储。

  5. 监控网络吞吐量:您可以设置警报,如果集群的网络吞吐量超过了某个阈值,将会触发警报。这可能表示集群正在承受重负荷的网络流量,并可能需要额外的资源或优化。

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则