모델 훈련을 위한 FSx for Luster 배포 유형 문의 드립니다.

0

Amazon GPU Instance에 Amazon FSx for Luster를 연결하여 분산 모델 훈련을 하려고 합니다. FSx for Luster 구성 시 어떤 부분을 고려해야 하나요? 성능/비용 모두 중요합니다.

gefragt vor einem Monat258 Aufrufe
1 Antwort
1
Akzeptierte Antwort

안녕하세요.

아래 링크를 보시면 Lustre의 선택 가능한 배포 유형과 제공되는 성능을 확인할 수 있습니다.
https://docs.aws.amazon.com/ko_kr/fsx/latest/LustreGuide/performance.html

HSM 기능 사용이나 GPU instance에서의 분산/병렬 훈련 방식, 데이터 사이즈 등에 따라 Lustre 배포 유형에 차이는 있으나, 기본적으로 Lustre의 용량은 OST(오브젝트 스토리지 타켓)로 구성이 되며, 각 OST 용량은 배포 유형에 따라 1.1~2TiB 입니다. 각 배포 유형의 성능에서 프로비저닝 된 스토리지를 OST 수로 볼 수가 있으며, 이에 따라 제공되는 성능이 결정이 됩니다.

예로 배포 유형을 “Persistent, SSD-250”으로 4TiB를 구성 시, 1.1TiB OST 4개가 생성이 되고 OST 당 디스크 처리량은 Baseline 250MBps, Burst 500MBps & 네트워크 처리량은 Baseline 640MB/s, Burst 1300MB/s 를 제공합니다. 즉, 전체 디스크 처리량은 Baseline 1GBps (250MBps x 4 OST), Burst 2GBps (500MBps x 4 OST) 를 제공하고, 전체 네트워크 처리량은 Baseline 2.5GB/s, Burst 5.2GB/s 가 됩니다.

Data를 GPU 인스턴스 Memory로 한번에 upload하는 경우 디스크 처리량의 Burst 성능, FSx for Lustre 와의 반복적적인 traffic 은 네트워크 처리량으로 우선적으로 판단할 수 있으며 추가적으로 디스크 처리량을 높이기 위해서 압축 기능을 적용할 수 도 있습니다. 위 링크의 성능 팁 부분에서 추가 고려 사항을 확인할 수 있습니다.

감사합니다.

AWS
beantwortet vor einem Monat

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen