분류 전체보기 37

AWS Parallel Cluster 3으로 Slurm 환경 및 LDAP을 통한 Active Directory 통합을 테스트 (Multi Node GPU Distributed Training을 위해)

Slurm 을 통해서 Deep Learning Model의 Multi Node GPU Distributed Training 환경을 준비해야 할 일이 생겼다. 이에 AWS Parallel Cluster 3를 통해 Slurm 환경을 구축하고 이에 대한 접근은 LDAP 을 통한 Active Directory로 한다. AWS 환경에서 이런 작업을 하는 것은 문서가 잘 되어있어서 이해하고 따라 할 수 있으면 작업에는 별로 무리가 없다. 하지만 다소 불친절하거나 순서가 이해가 가지 않는 경우도 있으므로 잘 기억할 수 있게 이렇게 글을 써두는 것도 나쁘지 않을 것 같다. AWS Parallel Cluster 란? AWS 문서에서의 AWS Parallel Cluster에 대한 소개는.. 기계 번역이다. 그래서 영어 원..

Cloud 2022.06.12

[스터디] DOIK - MySQL DB Kubernetes Operator 배포 및 테스트

쿠버네티스 데이터베이스 오퍼레이터 스터디라는 훌륭한 스터디에 참여하게 되었다. 가시다님이 진행하시는 스터디인데 그전에 명성은 들어보았으나 역시 아주 알차다. 이번 스터디에서는 데이터베이스를 오퍼레이터 패턴으로 쿠버네티스에 배포하고 운영하는 법을 배운다. 이 글은 스터디 1~3주차를 진행하면서 실습한 내용을 기록하기 위한 글이다. 쿠버네티스 오퍼레이터란? 쿠버네티스 문서의 오퍼레이터 항목을 읽어보면 오퍼레이터(Operator)는 사용자 정의 리소스 Custom Resource를 사용하여 애플리케이션 및 해당 컴포넌트를 관리하는 쿠버네티스의 소프트웨어 익스텐션이다. 오퍼레이터는 쿠버네티스 원칙, 특히 컨트롤 루프를 따른다. ... 쿠버네티스는 자동화를 위해 설계되었다. 기본적으로 쿠버네티스의 중추를 통해 ..

Study 2022.06.05

[북 리뷰] MLOps 도입 가이드

내가 이 책을 받은 시점에 내가 개인적으로 아는 어떤 MLOps 조직의 리더도 이 책을 구입하고 이미 읽은 상태였다. 어쩌다 이 책에 대한 얘기가 나와서 이 책에 대한 평을 듣게 되었는데 그의 한 줄 소감은, “책이 가벼워서 쭉 쉽게 읽어보기 좋은데 MLOps 플랫폼 관련해서 애매모호 했던 부분에 대해 전체적으로 개념을 잡아주는 책이다.” 였다. 모르는 사람이 들으면 간단하면서도 사정을 아는 사람이 들으면 더 깊게 들리는 말인 것 같다. 그건 아직은 MLOps 플랫폼 구성에 있어 정립하기 애매모호한 측면이 많기 때문인데.. 그 이유는 책에 나온 아래 도식을 보면 알 수 있을 것 같다. 일반적인 조직 내 머신러닝 모델 생애주기에 대한 사실적 도식화라고 표현한 그림이다. 조직 관점에서 바라보는 머신러닝 모..

Book 2022.05.29

Tekton으로 CI 하기

배경 Tekton이란? 오픈소스를 사용하는 글을 쓰면서 매번 생각하게 되는 건데, 이걸 도대체 뭐라고 표현해야 하냐는 고민이다. 각각 특성이 세부적으로 다르기도 하거니와 잘못 표현하면 오해의 소지가 있으므로 그냥 본인들의 소개글을 갖고 오는게 낫다는 생각이 든다. Tekton is a powerful and flexible open-source framework for creating CI/CD systems, allowing developers to build, test, and deploy across cloud providers and on-premise systems. 출처: https://tekton.dev/ powerful하고 flexible 하다고 한다. 멋있다. 같은 말이지만 Google ..

DevOps 2022.04.19

[스터디] 데이터 중심 애플리케이션 설계 - 4. 부호화와 발전

이 글은 도서 "데이터 중심 애플리케이션 설계" 를 가지고 스터디모임을 하면서 4장 - 부호화와 발전을 정리한 내용을 옮긴 글입니다. 데이터 중심 애플리케이션 설계 데이터를 처리하고 저장하는 다양한 기술의 장단점을 검토한다. 소프트웨어는 계속 변하지만 근본 원리는 동일하다. 이 책에서 소프트웨어 엔지니어와 아키텍트는 실전에 이 개념을 어떻게 적 www.aladin.co.kr 부호화와 발전 Encoding & Evolution 이 장의 핵심 문구 : 💡 여러가지 이유로 Application은 변하게 된다. 그리고 Application 기능을 변경하기 위해서는 저장하는 데이터도 변경해야 한다. 서버, 클라이언트 측 어플리케이션이 계속 유동적으로 변하기 때문에 예전 버전 코드와 새로운 버전의 코드, 이전의 데..

Study 2022.04.02

[북 리뷰] 처음 배우는 딥러닝 챗봇

북 리뷰를 써야 되어서가 아니라, 나도 북 리뷰를 보고 책을 사는 한 독자로서 북 리뷰는 항상 잘 쓰고 싶다. 그리고 오래 되어서 담긴 정보가 쓸모 없어진 책이 아니라면 어떤 기술 서적이든 읽어서 나쁠 책은 별로 없다고 생각한다. 어쨌거나 정보들이 담겨있으니까. 하지만 모든 사람들이 갖고 있는 지식이나 배경이 같지는 않다. 그래서 당연하게도 어떤 사람에게는 크게 도움이 되지 않는 내용일 수는 있다. 그래서 보통 어떤 사람은 이 책을 사야하고 어떤 사람은 사지 말아야 하는 책인지 명시를 해야겠다고 생각하고 글을 쓰는 편인데, 이 책을 굳이 한 문장으로 소개하자면... 파이썬과 머신러닝, 딥러닝을 처음 공부하던 어린 시절의 나에게 선물하고 싶은 책인 것 같다. 그리고 누가 읽어야 되냐면... 인공지능이라는 ..

Book 2022.03.31

[북 리뷰] 쿠브플로 운영 가이드

책을 고른 이유 데이터 사이언티스트들이 모델을 만들고 거기서 만들어진 모델을 서빙하는 플랫폼을 개발하는 일을 하면서 쿠브플로우를 사용해왔다.(아니 정확히는 모델 서빙용 구성요소인 KFServing만을 사용해왔다.) 다큐멘트를 뒤적거려서, 깃허브 이슈들을 뒤적거리면서 문제들을 해결하면서 버텨왔지만 항상 그렇듯이 내가 이해한 바가 맞는지, 이상적인 방식이 있는지는 궁금했다. 그래서 쿠브플로우 운영 가이드라는 책 제목을 봤을 때 선택하기 까지는 불과 몇초가 걸리지 않았다. 쿠브플로우에 대해서 머신러닝 모델링, 성능 좋은 모델 이후에 뭔가가 더 필요하다는 사실은 이제 모두가 알게 되었고 그래서 MLOps라는 단어가 화두가 되어가고 있는 것 같다. 쿠브플로우는 그 중에서도 화제가 되고 있는, “확장 가능하고, 포..

Book 2022.02.12

이미지 예측 모델을 쿠버네티스에 배포하기 A to Z (Kubernetes Kubeflow KFServing InferenceService Custom Image)

글 작성일 : 2020.11.18 Kubeflow KFServing InferenceService의 Custom Image를 쓰는 이유와 다른 점 이번 글은 이미지 예측 모델을 Kuberentes에 배포해서 이미지를 업로드 하고 예측 결과와 그 확률을 받아보는 구조를 만드는 내용이다. KFServing InferenceService Custom Image 사용자 이미지를 이용해서 Kubernetes에서의 서빙을 해본다. 전 글에서 포스팅 한 내용은 사용자가 KFServing InferenceService 매니페스트에 Tensorflow pb파일의 경로를 지정해주면 KFServing에서 알아서 Tensorflow Serving을 사용해서 배포를 해주는 구조였다. 하지만 Custom Image를 사용하면 유..

MLOps 2022.01.05

CKA 합격 후기 및 준비하는 법 공유

글 작성일: 2021.12.07 TL; DR Certified Kubernetes Administrator (CKA) with Practice Tests 강의 두번 반복 Kubernetes Documentation을 참고하면서 문제를 푸는 데 익숙해지자. 크롬, 비발디 브라우저와 북마크를 미리 준비해두자. 2021년이 되면서 세운 목표 중의 하나가 CKA, Certified Kubernetes Administrator 자격증을 따는 것이었으나 바쁜 업무를 핑계로 차일피일 미루고만 있었다. 매년 그렇지만 연말이 다가오면 게을러지고 공부하기가 싫어지는데 목표 달성을 위해 결국 꾸역꾸역 시험을 등록하고 말았다. CKA 시험권은 Linux Foundation의 Cybermonday 할인행사 때 싸게 사두었기 때..

Kubernetes 2022.01.05
반응형