跳至内容

如何解决 OpenSearch Service 中升级卡住或失败的问题?

1 分钟阅读
0

我的 Amazon OpenSearch Service 域卡住或无法完成升级过程。

简短描述

OpenSearch Service 使用蓝绿部署过程进行域升级。在此过程中,分片重新定位问题可能会导致域卡在 Modifying(正在修改)状态。或者,域可能无法通过升级验证检查。

**注意:**启动升级后将无法取消。如果升级过程卡住,则必须等待 AWS 解决潜在问题,然后才能完成该过程。

解决方法

在分片重新定位期间,域卡在“正在修改”状态

在蓝绿部署期间,OpenSearch Service 会将数据从现有节点复制到新节点。如果分片重新定位过程卡住,则域将保持在 Modifying(正在修改)状态。

出现此问题的原因如下:

  • 超过 50 GB 的大分片增加了分片复制时间。
  • 索引或搜索负载导致集群的资源使用率过高。
  • 没有足够的磁盘空间将分片复制到新节点。
  • 您已达到分片数量配额

要解决这些问题,请使用 Amazon CloudWatch 查看 OpenSearch Service 指标 FreeStorageSpaceClusterStatusClusterIndexWritesBlocked,以了解是否存在磁盘空间问题或集群负载过高问题。

根据您发现的问题,采取以下操作:

有关如何删除索引的详细信息,请参阅 OpenSearch 网站上的 DeleteIndexDelete Index API

要监控分片迁移过程,请运行以下命令:

GET _cat/recovery?active_only=true

命令输出将显示活动分片的恢复状态、进度百分比、恢复时间、失败状态以及数据传输大小。如果分片无进展或您收到的输出为空,则升级过程可能存在问题。要对升级问题进行故障排除,请创建 AWS Support 工单

如果您的分片大小超过 50 GB,请对您的数据执行重新索引,以创建多个较小的分片。有关说明,请参阅 OpenSearch 网站上的 Reindex data(重新索引数据)

如果上述故障排除操作均无法解决问题,请创建 AWS Support 工单

域未通过升级验证检查

在升级期间,OpenSearch Service 会验证您的域配置是否与新版本兼容。如果验证失败,则域将卡在 Modifying(正在修改)状态。

要解决此问题,请检查域描述中是否存在失败的活动或与验证相关的错误消息。针对您的错误完成相应的故障排除步骤,然后重新尝试配置更改。

防止升级问题的最佳实践

执行以下操作:

  • 对较大的分片执行重新索引,使单个分片大小保持在 50 GB 以下。
  • 针对您的配置使用正确的分片数量,并遵循分片策略最佳实践
  • 在集群使用率较低的时段启动升级。
  • 首先在非生产域上测试更新。
  • 确保您的域有足够的 CPU、内存和磁盘空间来应对升级期间增加的负载。在启动升级之前监控您的资源使用情况。
  • 在应用配置更改之前对其进行测试

相关信息

为什么我的 OpenSearch Service 域卡在“正在修改”状态?

AWS 官方已更新 2 个月前