- 최신
- 최다 투표
- 가장 많은 댓글
Spot Instance의 종료 과정에서 이벤트 발생 순서가 다른 이유는 여러 가지 상황에 따라 달라질 수 있습니다.
-
EC2 Instance Rebalance Recommendation (1번) 이벤트는 Spot Instance가 중단될 위험이 높아졌을 때 발생합니다. 이는 사전 경고의 역할을 하며, 실제 중단 전에 워크로드를 다른 인스턴스로 이전할 수 있는 기회를 제공합니다.
-
EC2 Spot Instance Interruption Warning (2번) 이벤트는 일반적으로 인스턴스 종료 2분 전에 발생해야 합니다. 하지만 이 이벤트가 발생하지 않는 경우가 있을 수 있습니다:
- 네트워크 지연이나 문제로 인해 알림이 전달되지 않을 수 있습니다.
- AWS 시스템 내부의 문제로 알림이 생성되지 않거나 전송되지 않을 수 있습니다.
- 매우 급격한 용량 변동으로 인해 2분 전 알림을 보낼 시간이 없이 인스턴스가 즉시 종료될 수 있습니다.
-
EC2 Instance State-change Notification (3번) 이벤트는 인스턴스가 실제로 종료 과정에 들어갔을 때 발생합니다.
1번 -> 3번으로 바로 넘어가는 경우는 중단 경고(2번)를 보낼 시간이 없이 빠르게 종료가 결정된 상황일 수 있습니다. 1번 -> 2번 -> 3번 순서로 발생하는 경우는 정상적인 중단 과정을 따르는 것입니다.
EKS 노드가 모두 Spot Instance로 구성되어 있다면, 이러한 중단에 대비하여 워크로드를 자동으로 재분배하는 메커니즘을 구현하는 것이 중요합니다. 또한, 애플리케이션이 인스턴스 중단에 대해 내결함성을 가지도록 설계하고, 중요한 상태 정보를 지속적으로 외부 스토리지(예: Amazon S3, EFS, FSx)에 저장하는 것이 좋습니다.
마지막으로, Spot Instance 중단 알림을 놓치는 경우에 대비하여 다중 알림 시스템을 구축하거나, 인스턴스 메타데이터를 주기적으로 확인하는 방법을 고려해볼 수 있습니다.
Sources
Spot Instance interruption notices - Amazon Elastic Compute Cloud
Spot Instance interruptions - Amazon Elastic Compute Cloud
Managing Spot Instance Interruptions - Overview of Amazon EC2 Spot Instances
관련 콘텐츠
- AWS 공식업데이트됨 2년 전
- AWS 공식업데이트됨 2년 전
그럼 추가적으로 하나만 더 질문하겠습니다. spot instance 종료시 이를 캐치하여 종료되기 전 pod가 graceful shutdown을 할 수 있도록 작업을 해두려고 합니다. 1번 EC2 Instance Rebalance Recommendation 발생시 노드 종료 전 작업들을 수행해도 문제없을까요?