- Опубликовано
снижение стоимости инференса GPU часть 1
- Автор
- Имя
- Новости нашего ИТ
- Telegram
- Новости нашего ИТ14 подписчиков5145 постовДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Снижаем стоимость инференса. Часть 1. Популярные подходы и что помогло нам повысить утилизацию GPU на 70%
#Kubernetes
Привет, Хабр! Меня зовут Данила Гудынин, я DevOps-инженер направления Evolution ML Inference в Cloud.ru. В мире машинного обучения GPU — главный актив, но что делать, когда ваши дорогостоящие видеокарты используются всего на 50%? Мы у себя столкнулись именно с такой проблемой и, чтобы наши клиенты не платили за простаивающие ресурсы, разработали собственную технологию виртуализации GPU. В этой статье пробежимся по верхам и расскажем, какие подходы рассматривали, и что в итоге позволило нам даже в условиях очень дорогого железа снизить цены до уровня западных облаков без просадки в производительности. А во второй части, которую опубликуем позже для тех, кто готов к глубокому погружению в оптимизацию GPU, мы поделимся готовыми алгоритмами для каждого из способов оптимизации и дадим «списать»
Предыдущий пост
- Опубликовано
Как GC останавливает весь мир, чтобы вынести мусор
Следующий пост
- Опубликовано
Могут ли кодинг-агенты самосовершенствоваться?
Из подборки #Kubernetes
- Опубликовано
Мониторинг на автопилоте: стек с VictoriaMetrics
- Опубликовано
PT Container Security: пропускная способность ↑ 3,5×
- Опубликовано
eBPF в Linux: когда писать код в ядре
- Опубликовано
PostgreSQL: масштабирование для 800 млн ChatGPT
- Опубликовано
Отказоустойчивый DNS, Mega и обновления Selectel
- Опубликовано
YADRO TATLIN.UNIFIED Gen2: распаковка и тест‑драйв
Свежие посты
- Опубликовано
Model Context Protocol на Go: 100K ops/sec
- Опубликовано
Создать Telegram‑бот погоды за 5 минут Nyagram
- Опубликовано
Регуляторные документы РФ по ИИ в 2026 году
- Опубликовано
Spring Shell 4.0.1 is out!
- Опубликовано
CDC своими руками: Kafka + Debezium в лаборатории
- Опубликовано
Kafka: обработка ошибок и Dead Letter Queues
- Опубликовано
Создание Ambilight приложения для Android на Java
- Опубликовано