Новости нашего ИТ

Подписаться

Опубликовано: вторник, 7 октября 2025 г.

Снижение стоимости инференса: KServe и vLLM

Автор

Имя
Новости нашего ИТ
Telegram
telegram

Новости нашего ИТ

12 подписчиков

4771 пост

Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения #Kubernetes Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru. В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач. В этой части мы нырнем в практически-технический хар дкор и расскажем, как оптимизировать работу своих графических процессоров с KServe ModelMesh или vLLM Production Stack, подсветим, где разбросаны грабли в этом деле, а еще заглянем под капот к Cloud.ru Shared GPU и объясним, как именно он позволяет нам ставить цены на уровне западных облаков при кратно более дорогом железе в РФ. ML-инженеры, DevOps и MLOps-архитекторы, можете сразу добавлять в з

Обсудить в Telegram

Новости нашего ИТ

12 подписчиков

4771 пост

Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Предыдущий пост

Опубликовано: 7 окт. 2025 г.

What is an internal developer platform (IDP)?

Что такое internal developer platform (IDP) и как он работает?

Следующий пост

Опубликовано: 7 окт. 2025 г.

Пятьдесят оттенков отказа: стоп слово — Zonal Shift

Как в Kubernetes происходит серый отказ (gray failure) и как Zonal Shift помогает избежать деградации доступности?

Из подборки #devops

Опубликовано: 16 янв. 2026 г.

+1

How Ansible does the real work in hyperautomation

Как Ansible реализует реальную работу в гиперавтоматизации?

Опубликовано: 16 янв. 2026 г.

+1

Nginx с человеческим лицом: обзор Nginx Proxy Manager

обзор Nginx Proxy Manager для новичков DevOps

Опубликовано: 15 янв. 2026 г.

+1

GitOps: расширение DevOps для Kubernetes

Что такое GitOps и как он расширяет DevOps для Kubernetes?

Опубликовано: 15 янв. 2026 г.

+1

VictoriaLogs в Kubernetes: установка и применение

Как установить и использовать VictoriaLogs в Kubernetes: руководство по Helm, cert-manager, Ingress и LogsQL

Опубликовано: 14 янв. 2026 г.

+1

Less routine, more control: PPEM gets smarter

PPEM 2.3 новые функции управления PostgreSQL

Опубликовано: 14 янв. 2026 г.

+1

Эволюция QA: от ручного тестирования к TestOps

Эволюция QA: от ручного тестирования к TestOps

Все посты из подборки →

Свежие посты

Опубликовано: 16 янв. 2026 г.

+1

Удобная синхронизация настроек Kafka

Удобная синхронизация настроек Kafka в кластере

Опубликовано: 16 янв. 2026 г.

+1

Spring Data 2025.1.2 и 2025.0.8 released

Spring Data 2025.1.2 и 2025.0.8: релиз и новые возможности

Опубликовано: 16 янв. 2026 г.

+1

How Ansible does the real work in hyperautomation

Как Ansible реализует реальную работу в гиперавтоматизации?

Опубликовано: 16 янв. 2026 г.

+1

OpenMedata в облаке: DataGovernance обзор Collate 1

OpenMedata в облаке Data Governance обзор Collate часть 1

Опубликовано: 16 янв. 2026 г.

+1

Python без Python: как запускать код где угодно

как запускать Python код где угодно без установки

Опубликовано: 16 янв. 2026 г.

+1

Хакатон Норникеля: YOLO, 2 место

Хакатон Норникеля YOLO 2 место как выиграть

Опубликовано: 16 янв. 2026 г.

+1

Nginx с человеческим лицом: обзор Nginx Proxy Manager

обзор Nginx Proxy Manager для новичков DevOps

Опубликовано: 16 янв. 2026 г.

От поэзии к нейробиологии: проверка метафор любви

Научная проверка метафор любви в поэзии и нейробиологии

Следующие посты →