Много нас, а он один: распределение GPU между ML-инженерами с помощью Dev Cluster
За последние десять лет в мире машинного обучения произошёл взрывной рост. Если в 2012 году мощную модель можно было обучить на нескольких GPU, то сегодня бигтехам нужны тысячи.
Вместе с железом выросла и головная боль: как дать всем ML-инженерам доступ к дефицитному ресурсу так, чтобы это не превращалось в постоянные просьбы из разряда «пожалуйста, почистите диск!!!».Расскажу про Dev Cluster — инструмент, который создали в команде ML Platform (Yandex Infrastructure) для гибкого распределения GPU между ML-разработчиками.
habr.com