Новости нашего ИТ

Подписаться

Опубликовано: суббота, 15 ноября 2025 г.

LLM без GPU: собрать inference‑сервер на CPU

Автор

Имя
Новости нашего ИТ
Telegram
telegram

Новости нашего ИТ

12 подписчиков

4766 постов

Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU #docker Допустим, вам нужно протестировать LLM на сотни миллиардов или почти триллион параметров в локальной среде — на своих данных, которые вы не хотите отдавать в облако. Задача сводится к сравнительным экспериментам или вообще к развертыванию решения внутри своей сети под небольшую нагрузку, если пользователей мало. Масштаб этих моделей ведет к проблеме: памяти одной видеокарты не хватит, а использование серверов с несколькими GPU может повлечь большие расходы на инфраструктуру. В таких случаях альтернативой становится запуск LLM на центральном процессоре (CPU), который хотя и медленнее GPU, но гораздо дешевле. Например, если сервер с двумя CPU обойдется за месяц в 150 000 ₽, то сервер с GPU — более 700 000 ₽. Конечно, сервер с GPU может «прожевать» больше запросов. Но если вам столько не надо

Обсудить в Telegram

Новости нашего ИТ

12 подписчиков

4766 постов

Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Предыдущий пост

Опубликовано: 15 нояб. 2025 г.

Замок в небесах: история Oracle

Замок в небесах: история Oracle #java Oracle снова в центре внимания. Компания, долгое время считавшаяся инфраструктурным элементом корпоративных...

Следующий пост

Опубликовано: 15 нояб. 2025 г.

Малоизвестные игровые журналы и газеты нулевых

малоизвестные игровые журналы и газеты нулевых годов

Из подборки #ai

Опубликовано: 16 янв. 2026 г.

+1

Хакатон Норникеля: YOLO, 2 место

Хакатон Норникеля YOLO 2 место как выиграть

Опубликовано: 15 янв. 2026 г.

+1

Spring AI Agentic Patterns Part 2 AskUserQuestion

Spring AI Agentic Patterns part 2: AskUserQuestionTool – agents clarify before acting

Опубликовано: 15 янв. 2026 г.

+1

Roo Code: как использовать DeepSeek для тестирования

Как использовать Roo Code с DeepSeek для тестирования Java приложений

Опубликовано: 14 янв. 2026 г.

+1

Нейросети для задач: сравнение Кэмп и ChatGPT

Как решить задачи программирования с помощью нейросетей: сравнение Кэмп, ChatGPT, Claude

Опубликовано: 14 янв. 2026 г.

+1

Я год не пишу код вручную и не вернусь

AI-driven инструменты разработки без написания кода вручную

Опубликовано: 14 янв. 2026 г.

+1

ИИ-статьи: спасение автора или смерть интернета

ИИ-статьи спасение автора или смерть интернета

Все посты из подборки →

Свежие посты

Опубликовано: 16 янв. 2026 г.

+1

Удобная синхронизация настроек Kafka

Удобная синхронизация настроек Kafka в кластере

Опубликовано: 16 янв. 2026 г.

+1

Spring Data 2025.1.2 и 2025.0.8 released

Spring Data 2025.1.2 и 2025.0.8: релиз и новые возможности

Опубликовано: 16 янв. 2026 г.

+1

How Ansible does the real work in hyperautomation

Как Ansible реализует реальную работу в гиперавтоматизации?

Опубликовано: 16 янв. 2026 г.

+1

OpenMedata в облаке: DataGovernance обзор Collate 1

OpenMedata в облаке Data Governance обзор Collate часть 1

Опубликовано: 16 янв. 2026 г.

+1

Python без Python: как запускать код где угодно

как запускать Python код где угодно без установки

Опубликовано: 16 янв. 2026 г.

+1

Хакатон Норникеля: YOLO, 2 место

Хакатон Норникеля YOLO 2 место как выиграть

Опубликовано: 16 янв. 2026 г.

+1

Nginx с человеческим лицом: обзор Nginx Proxy Manager

обзор Nginx Proxy Manager для новичков DevOps

Опубликовано: 16 янв. 2026 г.

От поэзии к нейробиологии: проверка метафор любви

Научная проверка метафор любви в поэзии и нейробиологии

Следующие посты →