为什么我的 Amazon OpenSearch Service 域上 OpenSearch Dashboards 处于红色状态?

2 分钟阅读
0

我的 Amazon OpenSearch Service 域上 OpenSearch Dashboards 一直显示红色状态。

简短描述

当 OpenSearch Service 集群的每个节点都通过所有运行状况检查时,OpenSearch Dashboards 显示为绿色状态。如果运行状况检查不通过,OpenSearch Dashboards 就会进入红色状态。当 OpenSearch Service 处于红色集群状态时,OpenSearch Dashboards 也会显示红色状态。OpenSearch Dashboards 状态可能变为红色,原因如下:

  • 由 Amazon Elastic Compute Cloud(Amazon EC2)实例或 Amazon Elastic Block Store(Amazon EBS)卷问题导致的节点故障。有关节点崩溃的详细信息,请参阅为什么我的 OpenSearch Service 节点崩溃了?
  • 您的节点内存不足。
  • 将 OpenSearch Service 升级到新版本。
  • OpenSearch Dashboards 与 OpenSearch Service 版本不兼容。
  • 单节点集群在负载繁重的情况下运行,没有专用的领导者节点。也可能无法访问专用领导者节点。有关 OpenSearch Service 如何提高集群稳定性的详细信息,请参阅专用领导者节点

解决方法

通过以下一种或多种方法来解决 OpenSearch Service 域的 OpenSearch Dashboards 红色状态问题。
**注意:**如果您的集群显示断路器异常,请先提高断路器限值。如果无断路器异常,请先尝试其他方法,然后再提高断路器限值。

调整查询

如果您正在运行复杂的查询(如大量聚合),请调整查询以获得最佳性能。堆内存消耗的突然激增可能是由字段数据或聚合查询使用的数据结构引起的。
查看以下 API 调用以确定激增的原因,将 os-endpoint 替换为您的域端点:

$curl os-endpoint/_nodes/stats/breaker?pretty
$curl "os-endpoint/_nodes/stats/indices/fielddata?level=indices&fields=*"

有关管理内存使用率的详细信息,请参阅 Elasticsearch 网站上的调整搜索速度

使用专用领导者节点

最佳做法是为每个 OpenSearch Service 域分配三个专用领导者节点。有关提高集群稳定性的详细信息,请参阅 OpenSearch Service 入门: 利用专用领导者实例来提高集群的稳定性

纵向扩展

要纵向扩展您的域,请增加节点数量或选择可容纳更多内存的 Amazon EC2 实例类型。有关扩展的详细信息,请参阅如何纵向扩展或横向扩展我的 OpenSearch Service 域?

检查您的分片分配

检查您的分区正提取到的索引,以确认它们均匀分配在所有的数据节点中。如果您的分片分配不均匀,则一个或多个数据节点的存储空间可能会耗尽。
使用以下公式确认分片是否均匀分配:

Total number of shards = shards per node * number of data nodes

例如,如果索引中有 24 个分片,有八个数据节点,则每个节点有三个分片。有关所需分片数量的详细信息,请参阅 OpenSearch Service 入门: 我需要多少分片?

检查您的版本

**重要事项:**您的 OpenSearch Dashboards 和 OpenSearch Service 版本必须兼容。

运行以下 API 调用确认您的版本兼容,将 os-endpoint 替换为您的域端点:

$curl os-endpoint/.kibana/config/_search?pretty

**注意:**命令不成功可能表明 OpenSearch Dashboards 和支持的 OpenSearch Service 版本之间存在兼容性问题。有关兼容的 OpenSearch Dashboards 和 Elasticsearch 版本的详细信息,请参阅 Elasticsearch 网站上的设置

监控资源

设置 Amazon CloudWatch 警报,在资源使用量超过特定阈值时通知您。例如,如果您设置了 JVM 内存压力警报,请在压力达到 100% 之前采取措施。有关 CloudWatch 警报的详细信息,请参阅推荐的 CloudWatch 警报使用 CloudWatch 通过自动警报提高 OpenSearch Service 域的运营效率

提高断路器限值

为防止集群内存空间耗尽,请尝试增加父级或字段数据断路器限值。有关字段数据断路器限值的详细信息,请参阅 Elasticsearch 网站上的断路器设置

相关信息

无法访问 OpenSearch Dashboards

如何解决 Amazon OpenSearch Service 上的 OpenSearch Dashboards 中的“Courier 提取:m 个分区中的 n 个失败?”错误

如何解决 Amazon OpenSearch Service 中的“无法还原索引 [.kibana],因为它已打开”错误?

对升级进行故障排除

AWS 官方
AWS 官方已更新 1 年前