안녕하세요?오늘은 AEWS 11주차 과제로 생성형 AI를 vLLM으로 배포해서 사용하는 테스트를 해볼 예정입니다. 이 과정에서 vLLM은 EKS 클러스터에 배포되고 mistral 7B 모델을 사용하며, AWS 의 고성능 파일 시스템인 FSx를 사용할겁니다. 또한 추론은 AWS Inferentia 를 통해 수행합니다. 이 가속기는 딥 러닝(DL) 및 생성형 AI 추론 애플리케이션을 위해 Amazon EC2에서 가장 낮은 비용으로 고성능을 제공하도록 설계되었습니다.개요모든 것이 배포 완료되고 난 이후의 구조는 아래와 같이 됩니다.S3에 보관된 Mistral 7B 모델을 Provisioning된 FSx PVC로 vLLM Pod에 마운트하여 사용합니다. OpenWebUI 프론트는 vLLM 에서 제공하는 Open..