- Опубликовано
Снижение стоимости инференса: KServe и vLLM
- Автор
- Имя
- Новости нашего ИТ
- Telegram
- Новости нашего ИТ14 подписчиков5145 постовДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения
#Kubernetes
Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru. В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач. В этой части мы нырнем в практически-технический хар дкор и расскажем, как оптимизировать работу своих графических процессоров с KServe ModelMesh или vLLM Production Stack, подсветим, где разбросаны грабли в этом деле, а еще заглянем под капот к Cloud.ru Shared GPU и объясним, как именно он позволяет нам ставить цены на уровне западных облаков при кратно более дорогом железе в РФ. ML-инженеры, DevOps и MLOps-архитекторы, можете сразу добавлять в з
Предыдущий пост
- Опубликовано
What is an internal developer platform (IDP)?
Из подборки #devops
- Опубликовано
Model Context Protocol на Go: 100K ops/sec
- Опубликовано
Сборка Debian пакета для Java с jdeb
- Опубликовано
Мониторинг на автопилоте: стек с VictoriaMetrics
- Опубликовано
Скрытая деградация продакшена
- Опубликовано
PT Container Security: пропускная способность ↑ 3,5×
- Опубликовано
Больше чем Proxy: Istio вместо классического Nginx
Свежие посты
- Опубликовано
Model Context Protocol на Go: 100K ops/sec
- Опубликовано
Создать Telegram‑бот погоды за 5 минут Nyagram
- Опубликовано
Регуляторные документы РФ по ИИ в 2026 году
- Опубликовано
Spring Shell 4.0.1 is out!
- Опубликовано
CDC своими руками: Kafka + Debezium в лаборатории
- Опубликовано
Kafka: обработка ошибок и Dead Letter Queues
- Опубликовано
Создание Ambilight приложения для Android на Java
- Опубликовано