- Опубликовано
снижение стоимости инференса GPU часть 1
- Автор

- Имя
- Новости нашего ИТ
- Telegram
Новости нашего ИТ12 подписчиков4738 постовДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Снижаем стоимость инференса. Часть 1. Популярные подходы и что помогло нам повысить утилизацию GPU на 70%
#Kubernetes
Привет, Хабр! Меня зовут Данила Гудынин, я DevOps-инженер направления Evolution ML Inference в Cloud.ru. В мире машинного обучения GPU — главный актив, но что делать, когда ваши дорогостоящие видеокарты используются всего на 50%? Мы у себя столкнулись именно с такой проблемой и, чтобы наши клиенты не платили за простаивающие ресурсы, разработали собственную технологию виртуализации GPU. В этой статье пробежимся по верхам и расскажем, какие подходы рассматривали, и что в итоге позволило нам даже в условиях очень дорогого железа снизить цены до уровня западных облаков без просадки в производительности. А во второй части, которую опубликуем позже для тех, кто готов к глубокому погружению в оптимизацию GPU, мы поделимся готовыми алгоритмами для каждого из способов оптимизации и дадим «списать»
Предыдущий пост
- Опубликовано
Как GC останавливает весь мир, чтобы вынести мусор
Следующий пост
- Опубликовано
Могут ли кодинг-агенты самосовершенствоваться?
Из подборки #Kubernetes
- Опубликовано
How Ansible does the real work in hyperautomation
- Опубликовано
GitOps: расширение DevOps для Kubernetes
- Опубликовано
VictoriaLogs в Kubernetes: установка и применение
- Опубликовано
Как я набрал 100 млн подписчиков за 1 наносекунду
- Опубликовано
ИИ-статьи: спасение автора или смерть интернета
- Опубликовано
Claude Code новые скиллы: systematic-debugging
Свежие посты
- Опубликовано
Удобная синхронизация настроек Kafka
- Опубликовано
Spring Data 2025.1.2 и 2025.0.8 released
- Опубликовано
How Ansible does the real work in hyperautomation
- Опубликовано
OpenMedata в облаке: DataGovernance обзор Collate 1
- Опубликовано
Python без Python: как запускать код где угодно
- Опубликовано
Хакатон Норникеля: YOLO, 2 место
- Опубликовано
Nginx с человеческим лицом: обзор Nginx Proxy Manager
- Опубликовано