Новости нашего ИТ

Подписаться

Опубликовано: понедельник, 12 мая 2025 г.

Инференс LLM: GPU в Proxmox и Kubernetes

Автор

Имя
Новости нашего ИТ
Telegram
telegram

Новости нашего ИТ

14 подписчиков

5145 постов

Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes #Kubernetes Когда модель DeepSeek R1 стала широко обсуждаться в сообществе, я заинтересовался, можно ли эффективно использовать её и другие крупные модели в домашних условиях, не прибегая к дорогостоящим облачным сервисам. Поскольку DevOps и инфраструктурой я увлекаюсь уже несколько лет, у меня постепенно сформировалась домашняя лаборатория, на которой я и решил проверить эту идею. Эта статья в трёх частях — результат моего опыта в решении этой задачи. Внутри вас ждёт пошаговое руководство по реализации бюджетного распределённого инференса с использованием Ray Serve, vLLM, Kubernetes, Proxmox и других технологий. В первой части мы разберём настройку GPU и его проброс в Proxmox, развернём Kubernetes-кластер, установим GPU Operator и KubeRay Operator.

Обсудить в Telegram

Новости нашего ИТ

14 подписчиков

5145 постов

Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Предыдущий пост

Опубликовано: 12 мая 2025 г.

Почему из технологий делают культы

Почему технологии становятся культами: сравнение с религиозными движениями и влияние на общество

Следующий пост

Опубликовано: 12 мая 2025 г.

JForge: мини-IDE на Java Swing с темной темой

Как создать мини-IDE на Java Swing с темной темой и подсветкой синтаксиса?

Из подборки #devops

Опубликовано: 1 февр. 2026 г.

+1

Model Context Protocol на Go: 100K ops/sec

Model Context Protocol на Go: 100K ops/sec, 10× быстрее Python SDK, multi‑tenancy, security

Опубликовано: 30 янв. 2026 г.

+1

Сборка Debian пакета для Java с jdeb

Как собрать Debian пакет для Java приложения с помощью jdeb

Опубликовано: 30 янв. 2026 г.

+1

Мониторинг на автопилоте: стек с VictoriaMetrics

Как реализовать мониторинг на автопилоте с VictoriaMetrics в банковской инфраструктуре

Опубликовано: 30 янв. 2026 г.

+1

Скрытая деградация продакшена

скрытая деградация продакшена Java сервисов

Опубликовано: 30 янв. 2026 г.

+1

PT Container Security: пропускная способность ↑ 3,5×

Пропускная способность PT Container Security увеличилась в 3,5 раза

Опубликовано: 29 янв. 2026 г.

+1

Больше чем Proxy: Istio вместо классического Nginx

Istio вместо Nginx: миграция ingress к service mesh в Java

Все посты из подборки →

Свежие посты

Опубликовано: 1 февр. 2026 г.

+1

Model Context Protocol на Go: 100K ops/sec

Model Context Protocol на Go: 100K ops/sec, 10× быстрее Python SDK, multi‑tenancy, security

Опубликовано: 1 февр. 2026 г.

+1

Создать Telegram‑бот погоды за 5 минут Nyagram

Как создать Telegram‑бот погоды за 5 минут на Java с Nyagram и OpenWeatherMap

Опубликовано: 1 февр. 2026 г.

+1

Регуляторные документы РФ по ИИ в 2026 году

регуляторные документы РФ безопасность ИИ 2026

Опубликовано: 31 янв. 2026 г.

+1

Spring Shell 4.0.1 is out!

Spring Shell 4.0.1 выпуск

Опубликовано: 31 янв. 2026 г.

+1

CDC своими руками: Kafka + Debezium в лаборатории

CDC Kafka Debezium домашняя лаборатория PostgreSQL

Опубликовано: 31 янв. 2026 г.

+1

Kafka: обработка ошибок и Dead Letter Queues

Как обработать ошибки в Spring Kafka и использовать Dead Letter Queue

Опубликовано: 31 янв. 2026 г.

+1

Создание Ambilight приложения для Android на Java

Как создать приложение Ambilight для Android на Java

Опубликовано: 31 янв. 2026 г.

+1

Архитектура факторов ранжирования Ozon runtime

архитектура факторов ранжирования в runtime поиска Ozon

Следующие посты →