반응형

karpenter 2

vLLM을 활용한 Mistral 7B 모델 배포 및 생성형 AI 사용 테스트

안녕하세요?오늘은 AEWS 11주차 과제로 생성형 AI를 vLLM으로 배포해서 사용하는 테스트를 해볼 예정입니다. 이 과정에서 vLLM은 EKS 클러스터에 배포되고 mistral 7B 모델을 사용하며, AWS 의 고성능 파일 시스템인 FSx를 사용할겁니다. 또한 추론은 AWS Inferentia 를 통해 수행합니다. 이 가속기는 딥 러닝(DL) 및 생성형 AI 추론 애플리케이션을 위해 Amazon EC2에서 가장 낮은 비용으로 고성능을 제공하도록 설계되었습니다.개요모든 것이 배포 완료되고 난 이후의 구조는 아래와 같이 됩니다.S3에 보관된 Mistral 7B 모델을 Provisioning된 FSx PVC로 vLLM Pod에 마운트하여 사용합니다. OpenWebUI 프론트는 vLLM 에서 제공하는 Open..

MLOps 2025.04.19

Karpenter + Keda로 특정 시간에 Autoscaling 걸기

안녕하세요?이번에는 Karpenter + Keda로 특정 시간에 Autoscaling 걸기에 대해 다뤄보겠습니다.Karpenter와 Keda에 대하여Karpenter가 뭔가요?Karpenter는 Kubernetes를 autoscaling 할 수 있게 도와주는 도구입니다.Autoscaling이란 말의 의미는 자동적으로 클러스터에 속한 노드를 증가, 축소할 수 있다는 뜻입니다.출처 : https://www.youtube.com/watch?v=FPlCVVrCD64 Karpenter는 Kubernetes에서 Pod를 스케줄링 할 수 있는 노드가 없어서 pending 이벤트가 발생하면, 이를 감지하여 Auto scaling을 시작합니다. pending 이벤트가 발생했다는 것은 Kubernetes Scheduler..

Kubernetes 2025.03.16
반응형