Redshift CloudWatch 警报

0

【以下的问题经过翻译处理】 大家好, 是否有任何文件可以阐述保持跟踪 Redshift 资源使用/资源冲突/阻止查询的最佳/必须的云警报。

背景 - 我们已经看到了一些情况,其中我们的 Redshift 集群变得不响应,直到一些阻塞查询被终止。但是,这种手动干预会消耗大量人工时间。请注意,在大多数这样的情况下,我们发现 CPU 使用率/集群性能参数是正常的。我看到“按优先级平均队列等待时间”大约是9分钟。总扫描的数据也看起来正常。我想看看是否有办法通过云监视警报识别此类异常。

对此方面的任何输入都将不胜感激。

profile picture
EXPERTE
gefragt vor 5 Monaten32 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 不同的书籍中应该会有很多关于该工具的内容,对于我领导的团队,我们追踪以下几个方面:

  1. 监控集群 CPU 利用率:您可以设置警报来触发,如果集群的平均 CPU 利用率超过了某个阈值。这可能表示该集群正在承受重负荷,并可能需要额外的资源或优化。

  2. 监控队列等待时间:您可以按优先级监控查询的平均队列等待时间。如果等待时间持续很长,则可能表示集群正在承受重负荷,或存在阻塞查询的情况。

  3. 监控扫描的数据:您可以设置警报,如果查询扫描的数据量超过了某个阈值,则会触发警报。这可能表示查询正在执行全表扫描,或者该集群正在承受重负荷。

  4. 监控磁盘空间:您可以设置警报,如果集群使用的磁盘空间超过了某个阈值,则会触发警报。这可能表示该集群的空间不足,可能需要调整大小,或需要删除或将数据移动到冷存储。

  5. 监控网络吞吐量:您可以设置警报,如果集群的网络吞吐量超过了某个阈值,将会触发警报。这可能表示集群正在承受重负荷的网络流量,并可能需要额外的资源或优化。

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen