NVIDIA ComputeDomains прагне спростити багатовузловий NVLink для Kubernetes

NVIDIA ComputeDomains прагне спростити багатовузловий NVLink для Kubernetes

NVIDIA просувається глибше у світ високопродуктивної інфраструктури штучного інтелекту, відкриваючи рідну для Kubernetes абстракцію під назвою ComputeDomains, яка обіцяє спростити головну складність сучасної розробки штучного інтелекту: забезпечення безпечного зв’язку графічного процесора з високою пропускною здатністю між кількома серверними вузлами.

ComputeDomains вирішує завдання в центрі ширшої стратегії NVIDIA щодо підтримки таких систем, як GB200 NVL72, стелажної системи штучного інтелекту, призначеної для навчання та визначення надзвичайно великих моделей штучного інтелекту. Проблема полягає в тому, що традиційні налаштування з одним вузлом обмежують графічні процесори одним серверним корпусом, обмежуючи масштабованість. NVLink усуває цей бар’єр, формуючи уніфіковану структуру графічного процесора, тож по суті він перетворює стійку на єдину площину прискорених обчислень. Але хоча апаратне забезпечення швидко розвивалося, Kubernetes історично не розумів, як координувати робочі навантаження, які залежать від цих високошвидкісних мереж. Це прогалина, яку ComputeDomains намагається закрити.

Динамічний процес

На високому рівні ComputeDomains дає Kubernetes інформацію, необхідну для керування графічними процесорами, підключеними через NVLink, не покладаючись на жорсткі, попередньо налаштовані з’єднання кластера. Ця функція вбудована в драйвер NVIDIA Dynamic Resource Allocation (DRA). DRA дозволяє робочим навантаженням динамічно запитувати графічні процесори, і тепер, завдяки ComputeDomains, розташованому поверх, ці робочі навантаження отримують доступ до міжвузлових операцій пам’яті, які підтримує NVLink.

Значення цієї абстракції стає зрозумілішим, якщо подивитися на те, що відбувається під капотом. Служба обміну міжвузловою пам’яттю (IMEX) NVIDIA — це механізм на рівні драйвера, який керує дозволами пам’яті GPU між вузлами. У попередніх поколіннях домени IMEX доводилося налаштовувати вручну, що змушувало операторів призначати робочі навантаження певним вузлам. Ця негнучкість працювала проти принципів дизайну Kubernetes еластичності та ізоляції помилок.

ComputeDomains розширює IMEX на площину керування Kubernetes. Тепер, коли заплановано розподілене завдання, платформа автоматично створює домен IMEX навколо будь-яких вузлів, на які потрапляють пакети. Коли робота завершується, домен розривається. Весь процес є динамічним і з урахуванням робочого навантаження.

Оптимізує ємність, безпеку

NVIDIA перевірила модель на системах DGX з використанням архітектури GB200, і компанія каже, що вона буде масштабована для майбутніх розгортань, включаючи системи з використанням набагато більших мереж NVLink.

На практиці це означає, що розробники, які виконують багатовузлові завдання PyTorch або TensorFlow, можуть покладатися на пропускну здатність між GPU без необхідності розуміти, як канали IMEX відображаються в кластері.

Для підприємств, які намагаються максимізувати використання графічного процесора, динамічний розподіл NVLink зменшує неактивну ємність і запобігає фрагментації ресурсів, яка часто турбує великі кластери. Для чутливих до безпеки середовищ ComputeDomains створює ізольовані зони зв’язку, щоб робочі навантаження не могли отримати доступ до пам’яті GPU із сусідніх завдань.

Впровадження обізнаності про NVLink у Kubernetes

Оскільки моделі штучного інтелекту стають дедалі складнішими, а висновок штучного інтелекту стає все більшим робочим навантаженням, пропускна здатність з’єднання GPU тепер діє як обмеження для загальної продуктивності. Здатність NVLink забезпечувати незмінно вищу пропускну здатність, ніж PCIe, залишається важливою, але лише якщо рівні оркестровки можуть використовувати цю продуктивність.

NVIDIA поспішила підняти профіль нового продукту: його планувальник KAI і служба DGX Cloud Lepton вже включають ComputeDomains як стандартний рівень.

Для встановлення нового драйвера DRA потрібен Kubernetes 1.32 або новішої версії, а також підтримка інтерфейсу контейнерного пристрою. NVIDIA каже, що продукт знаходиться на стадії швидкого розвитку, і планується, що найближчі оновлення підвищать еластичність і відмовостійкість.

У ширшій історії інфраструктури штучного інтелекту ComputeDomains висвітлює тенденцію, яка стає все більш очевидною: оскільки графічні процесори перетворюються на тісно пов’язані багатовузлові системи, стек оркестровки повинен розвиватися разом з ними. Переносячи інформацію про NVLink безпосередньо в Kubernetes, NVIDIA пропонує міст між найсучаснішим апаратним забезпеченням і внутрішніми робочими процесами контейнерів, які домінують у сучасній розробці ШІ.