- 最新
- 投票最多
- 评论最多
從你的指標來看,CPU負載有先突然增加到100%的狀況,並且持續一段時間,隨後造成實例檢查失敗(Status check failed - instance)出現,但網路進出(NetworkIn/Out)卻沒有同步增加的行為,而出現實例檢查失敗(Status check failed - instance)當下,此時實例已經無法正常運行了(自然無法連接),一般是作業系統內出現異常(OS level issue),例如特定應用程序大量去使用 CPU/Memoery 資源,而造成CPU負載突增,最終造成實例無法回應健康檢查(ARP ping failed)。
故建議您先登入該實例,去檢查實例內的系統日誌檔(system logs),來看看當時是否有異常的報錯訊息,來釐清是否有實例內的其他問題。
若是 Linux 系統的話,若您的系統已有安裝 atop[+] 或 sar[+] 等資源監控工具,可以先檢查則當時的系統資源使用狀況,比如查看記憶體的用量、程序的狀態、硬碟讀寫的用量,如果沒安裝的話,則建議您安裝,這樣若下次還有問題,至少會有當時的系統資源使用狀態,也有較多信息來協助判斷資源使用狀況。
以下排查文檔,提供您參考。
[+] 對無法連線的 EC2 Linux 執行個體上的狀態檢查失敗進行疑難排解 | AWS re:Post: https://repost.aws/zh-Hant/knowledge-center/ec2-linux-status-check-failure
[+] 設定適用於 EC2 Linux 執行個體的監控工具 | AWS re:Post: https://repost.aws/zh-Hant/knowledge-center/ec2-linux-configure-monitoring-tools
相关内容
- AWS 官方已更新 2 年前
- AWS 官方已更新 1 年前
- AWS 官方已更新 1 年前
- AWS 官方已更新 3 年前