- Опубликовано
Обновление драйверов NVIDIA в Yandex Kubernetes
- Автор
- Имя
- Новости нашего ИТ
- Telegram
- Новости нашего ИТ14 подписчиков5145 постовДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Тонкости обновления драйверов NVIDIA в Yandex Managed Kubernetes
#Kubernetes
Привет! Я Алиса, DevOps-инженер в KTS. В этой статье я расскажу о том, как мы настроили автоматическое обновление драйверов NVIDIA для работы с Jupyter и ML-стеком в управляемом кластере. Проблема: когда контейнеры и ML-библиотеки обновляются чаще, чем системные образы GPU-нод, версия драйвера быстро перестает соответствовать версии CUDA в контейнере. В итоге при вызове nvidia-smi возвращает ошибку Driver/library version mismatch, а CUDA просто не видит драйвер на хосте. Нам нужно было обновить Jupyter с ML-стеком, зависящим от CUDA. Как следствие, встал вопрос обновления драйверов NVIDIA на GPU-нодах. Можно было выполнять его руками на каждой ноде, но такой способ нам не подходил, и мы выбрали автоматизацию, которой и посвящена моя статья. Ниже я разберу и ручное обновление, и варианты ав
Предыдущий пост
- Опубликовано
runtime-DI Java JSR-330 Class-File API миграция
Следующий пост
- Опубликовано
Как Agile убил задачи про люки
Из подборки #Kubernetes
- Опубликовано
Мониторинг на автопилоте: стек с VictoriaMetrics
- Опубликовано
PT Container Security: пропускная способность ↑ 3,5×
- Опубликовано
eBPF в Linux: когда писать код в ядре
- Опубликовано
PostgreSQL: масштабирование для 800 млн ChatGPT
- Опубликовано
Отказоустойчивый DNS, Mega и обновления Selectel
- Опубликовано
YADRO TATLIN.UNIFIED Gen2: распаковка и тест‑драйв
Свежие посты
- Опубликовано
Model Context Protocol на Go: 100K ops/sec
- Опубликовано
Создать Telegram‑бот погоды за 5 минут Nyagram
- Опубликовано
Регуляторные документы РФ по ИИ в 2026 году
- Опубликовано
Spring Shell 4.0.1 is out!
- Опубликовано
CDC своими руками: Kafka + Debezium в лаборатории
- Опубликовано
Kafka: обработка ошибок и Dead Letter Queues
- Опубликовано
Создание Ambilight приложения для Android на Java
- Опубликовано