Новости нашего ИТ логотип
Подписаться
Опубликовано

Обновление драйверов NVIDIA в Yandex Kubernetes

Автор

Тонкости обновления драйверов NVIDIA в Yandex Managed Kubernetes #Kubernetes Привет! Я Алиса, DevOps-инженер в KTS. В этой статье я расскажу о том, как мы настроили автоматическое обновление драйверов NVIDIA для работы с Jupyter и ML-стеком в управляемом кластере. Проблема: когда контейнеры и ML-библиотеки обновляются чаще, чем системные образы GPU-нод, версия драйвера быстро перестает соответствовать версии CUDA в контейнере. В итоге при вызове nvidia-smi возвращает ошибку Driver/library version mismatch, а CUDA просто не видит драйвер на хосте. Нам нужно было обновить Jupyter с ML-стеком, зависящим от CUDA. Как следствие, встал вопрос обновления драйверов NVIDIA на GPU-нодах. Можно было выполнять его руками на каждой ноде, но такой способ нам не подходил, и мы выбрали автоматизацию, которой и посвящена моя статья. Ниже я разберу и ручное обновление, и варианты ав

link

avatar
Новости нашего ИТ
12 подписчиков
4804 поста
Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Свежие посты