- Опубликовано
Обновление драйверов NVIDIA в Yandex Kubernetes
- Автор

- Имя
- Новости нашего ИТ
- Telegram
Новости нашего ИТ12 подписчиков4804 постаДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Тонкости обновления драйверов NVIDIA в Yandex Managed Kubernetes
#Kubernetes
Привет! Я Алиса, DevOps-инженер в KTS. В этой статье я расскажу о том, как мы настроили автоматическое обновление драйверов NVIDIA для работы с Jupyter и ML-стеком в управляемом кластере. Проблема: когда контейнеры и ML-библиотеки обновляются чаще, чем системные образы GPU-нод, версия драйвера быстро перестает соответствовать версии CUDA в контейнере. В итоге при вызове nvidia-smi возвращает ошибку Driver/library version mismatch, а CUDA просто не видит драйвер на хосте. Нам нужно было обновить Jupyter с ML-стеком, зависящим от CUDA. Как следствие, встал вопрос обновления драйверов NVIDIA на GPU-нодах. Можно было выполнять его руками на каждой ноде, но такой способ нам не подходил, и мы выбрали автоматизацию, которой и посвящена моя статья. Ниже я разберу и ручное обновление, и варианты ав
Предыдущий пост
- Опубликовано
runtime-DI Java JSR-330 Class-File API миграция
Следующий пост
- Опубликовано
Как Agile убил задачи про люки
Из подборки #Kubernetes
- Опубликовано
How Ansible does the real work in hyperautomation
- Опубликовано
GitOps: расширение DevOps для Kubernetes
- Опубликовано
VictoriaLogs в Kubernetes: установка и применение
- Опубликовано
Как я набрал 100 млн подписчиков за 1 наносекунду
- Опубликовано
ИИ-статьи: спасение автора или смерть интернета
- Опубликовано
Claude Code новые скиллы: systematic-debugging
Свежие посты
- Опубликовано
Удобная синхронизация настроек Kafka
- Опубликовано
Spring Data 2025.1.2 и 2025.0.8 released
- Опубликовано
How Ansible does the real work in hyperautomation
- Опубликовано
OpenMedata в облаке: DataGovernance обзор Collate 1
- Опубликовано
Python без Python: как запускать код где угодно
- Опубликовано
Хакатон Норникеля: YOLO, 2 место
- Опубликовано
Nginx с человеческим лицом: обзор Nginx Proxy Manager
- Опубликовано