Health Checkから頻繁にアラームが通知されます

0

お世話になります。

【状況】
EC2インスタンス(i-0808ac1ec16589137)にてウェブサービスを稼働していました(現在はサービスホストをほかのインスタンスへ切り替え済みです)。
ほかのアカウントにて3/15にHealth Checkを設定しました。このインスタンス以外にも別アカウントの2つのウェブサービスへ同様にHealth Checkを設定しました。
その後、このサービスに対するアラームが通知されるようになりました。ほかの2つのサービスについてのアラームはありません。

以下はアラームの時間帯に該当するApacheのアクセスログを確認して、ログが記録されていない期間をピックアップしました。
平常時は、Health Checkがまんべんなくアクセスしますので、間隔が空いても10秒程度です。それ以上空いている場合を抜き出しました。

ログ無記録期間(時刻はJSTです)
03/20 01:17:06~01:22:20(約5分)
03/22 01:21:55~01:25:10(約3分)
03/25 00:57:40~00:58:08(約30秒)、00:58:08~00:58:45(約30秒)
03/28 13:06:10~13:07:25(約1分)、13:07:25~13:09:49(約2分)
03/28 22:10:58~22:11:27(約30秒)、22:12:48~22:14:16(約1分)
04/02 00:55:16~00:59:17(約4分)
04/04 01:19:12~01:22:43(約3分)、01:22:50~01:25:29(約2分)
04/07 01:17:36~01:21:31(約4分)、01:21:31~01:22:01(約30秒)、01:22:02~01:27:33(約5分)
04/08 01:16:47~01:18:46(約2分)、01:18:51~01:20:01(約1分)、01:20:01~01:25:42(約6分)
04/09 01:17:06~01:24:20(約7分)、01:25:59~01:26:18(約20秒)、01:26:18~01:28:23(約2分)
04/10 01:13:25~01:17:19(約4分)、01:17:20~01:28:21(約11分)、01:28:21~01:29:05(約40秒)、01:29:05~01:30:32(約30秒)
04/11 01:18:22~01:24:36(約6分)、01:25:38~01:26:14(約30秒)
04/12 01:22:18~01:23:36(約1分)、01:24:16~01:25:02(約40秒)

本日まで13回発生し、そのうち8回は1:20ころに発生しています。

また、Health Checkだけでなく、ほかアカウントのEC2インスタンスから、wgetによるアクセスを毎分行なうようにし、状況を確認しています。wgetはリトライを繰り返し、上記のログ無記録期間後にまとめてアクセスが記録されるような挙動が見られます。

一度だけ、アラーム通知直後にブラウザからアクセスしたところ、ERR_CONNECTION_TIMED_OUTとなり、ウェブサービスに接続できないことを確認しました。

このほか、Cloud Watchの「ステータスチェックに失敗(インスタンス)」と「ステータスチェックに失敗(システム)」を監視しています。システムは失敗カウントされません。インスタンスは上記のログ無記録期間に失敗カウントされます。なお、失敗カウントの前後や中にサンプリングできない(プロットされない)期間があったり、失敗も記録されずにすべてがサンプリングできない現象があり、不思議に思っています。

ステータスチェックに失敗したインスタンスのトラブルシューティング
http://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/TroubleshootingInstances.html
の手順は確認しました。システムログには上記に該当する期間の記録がなく、トラブルシュートできません。

Apacheのエラーログには関連するような記録はありません。/var/log/messagesも同じです。

インスタンス内のログを見る限り、ウェブサービスがリクエスト受付を停止するようなことが起きているようには見えません。

【質問】
原因についてのアドバイスをいただけましたら幸いです。
また、トラブルシューティングのために、ほかにチェックすべき事柄があればご指摘ください。
どうぞよろしくお願いします。

Edited by: sakaguchi on Apr 13, 2017 11:14 PM

gefragt vor 7 Jahren165 Aufrufe
1 Antwort
0

誤操作したので、訂正します。未解決です。

Edited by: sakaguchi on Apr 14, 2017 6:14 AM

beantwortet vor 7 Jahren

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen