반응형

MLOps 4

vLLM을 활용한 Mistral 7B 모델 배포 및 생성형 AI 사용 테스트

안녕하세요?오늘은 AEWS 11주차 과제로 생성형 AI를 vLLM으로 배포해서 사용하는 테스트를 해볼 예정입니다. 이 과정에서 vLLM은 EKS 클러스터에 배포되고 mistral 7B 모델을 사용하며, AWS 의 고성능 파일 시스템인 FSx를 사용할겁니다. 또한 추론은 AWS Inferentia 를 통해 수행합니다. 이 가속기는 딥 러닝(DL) 및 생성형 AI 추론 애플리케이션을 위해 Amazon EC2에서 가장 낮은 비용으로 고성능을 제공하도록 설계되었습니다.개요모든 것이 배포 완료되고 난 이후의 구조는 아래와 같이 됩니다.S3에 보관된 Mistral 7B 모델을 Provisioning된 FSx PVC로 vLLM Pod에 마운트하여 사용합니다. OpenWebUI 프론트는 vLLM 에서 제공하는 Open..

MLOps 2025.04.19

KServe ML Model monitoring 해보기 : Knative, Loki

이번 주 CloudNeta 스터디 주제는 Monitoring 이라 요즘 생각하고 있는 KServe의 모니터링과 관련된 글을 써보려고 한다. KServe는 ML Serving tool이니까, ML 시스템의 모니터링에 대한 얘기가 되어야 할 것 같다. ML system 에서의 Monitoring ML 시스템에서의 모니터링은 다른 모니터링과 뭐가 다를까에 대해서 참고할 만한 책이 있다. 최근에 읽고 있는 Reliable Machine Learning 이란 책인데, 이 책의 9장은 Monitoring and Observability이다. 거기서 이론적인 부분을 좀 참고해볼 수 있을 것 같아서 일부만 갖고 와봤다. Monitoring과 Observability란 뭘까? Monitoring은 시스템의 성능에 대한 ..

MLOps 2023.04.01

KServe로 하는 Model Serving 이해하기

22.10.8 작성 TL; DR 그러니까 KServe라는 건 그냥 아주 쉽게 모델을 마운트해서 쓸 수 있게 다 코드를 준비해놓은 Tornado로 만든 웹서버인 것이다. 배경 KServe를 KFServing일 시절부터 테스트용으로 사용은 해왔지만 몇 개월 전부터 나름 production level로 사용을 하다보니, 한번 전체 구동 방식을 기록해두자 라는 생각이 들었다. 원래 KServe는 Kubeflow의 하부 프로젝트로 KFServing이라는 이름이었다. 그리고 0.7 버전부터 KServe라는 이름으로 변경되었고, KFServing에서의 migrating 을 지원한다. 현재 (22.10.8) 시점에서는 0.9버전이 release 되어 있으며, 점점 복잡해지는 Model Serving 들을 위한 기능이 ..

MLOps 2022.10.08

이미지 예측 모델을 쿠버네티스에 배포하기 A to Z (Kubernetes Kubeflow KFServing InferenceService Custom Image)

글 작성일 : 2020.11.18 Kubeflow KFServing InferenceService의 Custom Image를 쓰는 이유와 다른 점 이번 글은 이미지 예측 모델을 Kuberentes에 배포해서 이미지를 업로드 하고 예측 결과와 그 확률을 받아보는 구조를 만드는 내용이다. KFServing InferenceService Custom Image 사용자 이미지를 이용해서 Kubernetes에서의 서빙을 해본다. 전 글에서 포스팅 한 내용은 사용자가 KFServing InferenceService 매니페스트에 Tensorflow pb파일의 경로를 지정해주면 KFServing에서 알아서 Tensorflow Serving을 사용해서 배포를 해주는 구조였다. 하지만 Custom Image를 사용하면 유..

MLOps 2022.01.05
반응형