Как сократить расходы на инференс LLM? Кейс компании «Актион»
Команда «Актион» сократила расходы на GPU на 60% и увеличила пропускную способность в 36 раз благодаря решению Compressa на инфраструктуре Selectel. Расскажем этот кейс, обсудим способы оптимизации open-source LLM-моделей на своем сервере и преимущества использования облака для инференса LLM.
Инструменты и технологии
LLMOps
LoRA fine-tuning
Open-source LLM
.
Программа
Проблемы внешних API и open-source моделей «из коробки»
Способы оптимизации LLM-моделей на своем сервере
Сравнение производительности и стоимости токенов после оптимизации LLM
Инфраструктура Selectel для инференса LLM-моделей
Кейс «Актион» и Compressa. Оценка окупаемости решения и использование LLM в продакшене
Ответы на вопросы
Подарок для участников вебинара: бесплатный двухнедельный тест LLM-платформы Compressa на инфраструктуре Selectel с GPU
.
Спикеры
Кому будет полезно
ML- и MLOps-инженерам
Data Scientists и NLP-инженерам
CTO и менеджерам ML-проектов
.
Регистрация на вебинар
Мероприятие бесплатное. Задайте вопрос в форме регистрации, и мы ответим на него во время трансляции.
Все участники получат запись и смогут принять участие в розыгрыше приза за лучший вопрос.