Slurm 을 통해서 Deep Learning Model의 Multi Node GPU Distributed Training 환경을 준비해야 할 일이 생겼다. 이에 AWS Parallel Cluster 3를 통해 Slurm 환경을 구축하고 이에 대한 접근은 LDAP 을 통한 Active Directory로 한다. AWS 환경에서 이런 작업을 하는 것은 문서가 잘 되어있어서 이해하고 따라 할 수 있으면 작업에는 별로 무리가 없다. 하지만 다소 불친절하거나 순서가 이해가 가지 않는 경우도 있으므로 잘 기억할 수 있게 이렇게 글을 써두는 것도 나쁘지 않을 것 같다. AWS Parallel Cluster 란? AWS 문서에서의 AWS Parallel Cluster에 대한 소개는.. 기계 번역이다. 그래서 영어 원..