实例状态失败

0

【以下的问题经过翻译处理】 我们在2019年3月25日01:45发生了一次实例故障,但是我在AWS支持仪表板的“事件”中没有看到任何列出的内容,以及提供问题的建议。

实例停止响应,查看CloudWatch指标,我发现StatusCheckFailed_System指标在2019年3月25日01:44到01:45之间从0变为1。

没有报道任何健康问题,我们也没有收到AWS的通信,表明在夜间实例失败时它正运行在任何降级的硬件上(就像我们以前在夜间实例失败时收到的一样)。

AWS能否通知有关2019年3月25日01:40至02:10之间出现的可能影响以下实例的问题?EC2实例和EBS卷在这些时间之间的指标在CloudWatch中也为空,这表明存在导致停机的问题。

实例ID:i-017d39167c95d214c

profile picture
专家
已提问 5 个月前81 查看次数
1 回答
0

【以下的回答经过翻译处理】 你好,matthalion,

很抱歉听到你的实例 i-017d39167c95d214c 遇到了问题。

我已经检查了实例并发现其底层物理主机在上述时间段内遇到了硬件相关的问题。这导致你的实例无法响应并在状态检查中失败。

请注意,将来你可以通过检查实例的“系统状态检查” [1] 来确定实例是否受到硬件相关事件的影响。这些检查的历史记录也可以通过查看 Amazon CloudWatch 的 StatusCheckFailed_System 指标 [2,3] 来查看。

对于上述问题以及由此给您带来的任何不便,我们深表歉意。

请注意,你的实例仍被托管在同一物理主机上。虽然主机现在是健康的,但你可以考虑停止然后重新启动你的实例。如你可能已经意识到的那样,停止/启动操作可以将实例移动到另一个健康的物理主机 [4](请注意:简单的“重新启动”操作并不起作用),该主机未受上述硬件问题的影响。

我想建议你查看 Amazon EC2 的自动恢复功能。你可以创建一个 Amazon CloudWatch 报警监控 Amazon EC2 实例,如果该实例受到底层硬件故障或需要 AWS 参与修复的问题影响而变得有问题,则自动恢复该实例。基本上,你可以使用 CloudWatch 来设置报警,当系统状态检查失败时触发该报警。该报警可以进一步触发 EC2 操作,“恢复该实例” [5,6]。

如果需要进一步帮助,请告诉我们。

链接: [1] https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html#types-of-instance-status-checks [2] https://aws.amazon.com/blogs/aws/ec2-instance-status-metrics/ [3] https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ec2-metricscollected.html#ec2-metrics [4] http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/Stop_Start.html#instance_stop [5] http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/UsingAlarmActions.html#AddingRecoverActions [6] https://aws.amazon.com/blogs/aws/new-auto-recovery-for-amazon-ec2/

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则