現在AWS RDS(Oracle)において、定期的な負荷増大に関する問題に直面しています。
いくつかの観察点と背景を以下にまとめまております。
もしアドバイスや考察、ご知見をいただけますと助かります。
■問題の概要 ━━━━━━━━━
・RDSに対して、定期的に負荷が高まる時間帯が存在
→毎日必ず7時ごろに発生します。
・EC2には負荷がかかっていないことを確認済み
→ALBで負荷分散されたEC2(3台)をWEB/APサーバおよびバッチ処理サーバとして使用していますが、EC2側には特に高い負荷は見られません。
・重たいバッチ処理等は行われていない
→負荷が高まる時間帯に特定のバッチ処理や重たいサービス処理は動作していません。
・負荷が高い時間帯に見られる待機イベント
→library cache lock と cursor: pin S wait on X が観測されています。
・RDS再起動後は問題が解消する
→再起動後は上記の現象は発生せず、RDSは安定した状態が続きます。ただし、約1年半前にも同様の事象が発生し、その際も再起動で解決しましたが、今回再発しました。
・CloudWatchでRDSのCPU使用率
→上記事象が発生していた期間は50%を推移し、負荷が高まる時間帯に70%程度まであがっておりましたが、再起動後は10%程度で安定しております。
■環境 ━━━━━━━━━
・RDSのタイプ:Oracle
・EC2構成:ALBで負荷分散された3台のEC2をWEB/APサーバおよびバッチ処理用に使用
・問題の再現性:毎日7時ごろに発生(RDSの再起動で解消)