- Опубликовано
Снижение стоимости инференса: KServe и vLLM
- Автор

- Имя
- Новости нашего ИТ
- Telegram
Новости нашего ИТ12 подписчиков4771 постДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения
#Kubernetes
Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru. В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач. В этой части мы нырнем в практически-технический хар дкор и расскажем, как оптимизировать работу своих графических процессоров с KServe ModelMesh или vLLM Production Stack, подсветим, где разбросаны грабли в этом деле, а еще заглянем под капот к Cloud.ru Shared GPU и объясним, как именно он позволяет нам ставить цены на уровне западных облаков при кратно более дорогом железе в РФ. ML-инженеры, DevOps и MLOps-архитекторы, можете сразу добавлять в з
Предыдущий пост
- Опубликовано
What is an internal developer platform (IDP)?
Из подборки #devops
- Опубликовано
How Ansible does the real work in hyperautomation
- Опубликовано
Nginx с человеческим лицом: обзор Nginx Proxy Manager
- Опубликовано
GitOps: расширение DevOps для Kubernetes
- Опубликовано
VictoriaLogs в Kubernetes: установка и применение
- Опубликовано
Less routine, more control: PPEM gets smarter
- Опубликовано
Эволюция QA: от ручного тестирования к TestOps
Свежие посты
- Опубликовано
Удобная синхронизация настроек Kafka
- Опубликовано
Spring Data 2025.1.2 и 2025.0.8 released
- Опубликовано
How Ansible does the real work in hyperautomation
- Опубликовано
OpenMedata в облаке: DataGovernance обзор Collate 1
- Опубликовано
Python без Python: как запускать код где угодно
- Опубликовано
Хакатон Норникеля: YOLO, 2 место
- Опубликовано
Nginx с человеческим лицом: обзор Nginx Proxy Manager
- Опубликовано