Огляд на KubeCon 2026: Canonical вітає donation NVIDIA драйвера GPU DRA до CNCF

На KubeCon Europe в Амстердамі, NVIDIA оголосила про donation драйвера GPU Dynamic Resource Allocation (DRA) до Cloud Native Computing Foundation (CNCF). Це важливий крок для екосистеми Kubernetes та майбутнього інфраструктури AI.

Протягом багатьох років графічні процесори (GPU) були в центрі сучасного машинного навчання і обчислювальних навантажень високої продуктивності. Але інтеграція їх у Kubernetes вимагала спеціалізованих інструментів та компонентів від постачальників. Donation драйвера DRA означає перехід до глибшої стандартизації оркестрації GPU у середовищах cloud-native. Залучаючи цю технологію до екосистеми CNCF, NVIDIA забезпечує еволюцію просунутих можливостей планування GPU разом з більшою спільнотою Kubernetes.

Цей внесок зміцнює позицію Kubernetes як платформи для масштабних AI навантажень та забезпечує базу для більш гнучкого, програмованого управління ресурсами GPU. Щоб зрозуміти, чому це важливо, варто поглянути на ширшу екосистему графічних процесорів NVIDIA, яка підтримує AI навантаження на Kubernetes.

Екосистема графічних процесорів NVIDIA для Kubernetes

У 2026 році стек GPU NVIDIA у Kubernetes організований у три основні шари: GPU Operator, Modern Resource Stack, побудований навколо DRA, та просунуті можливості оркестрації, такі як AI (KAI) Scheduler. Разом ці компоненти трансформують GPU з простих апаратних прискорювачів у повністю оркестровані ресурси інфраструктури.

GPU Operator: автоматизація GPU інфраструктури

GPU Operator автоматизує управління життєвим циклом програмного забезпечення, необхідного для функціонування GPU всередині кластера Kubernetes. Замість того, щоб адміністраторам доводилося вручну налаштовувати драйвери, середовища виконання та інструменти моніторингу, оператор автоматично розгортає та управляє цими компонентами. Це забезпечує послідовне, готове до виробництва середовище для навантажень GPU.

Типові компоненти, які автоматично розгортає оператор, включають:

NVIDIA Driver: Ядрові модулі та бібліотеки користувацького простору, необхідні для роботи GPU, встановлюються через контейнеризований менеджер драйверів.
NVIDIA Container Toolkit: Цей компонент інтегрує GPU з середовищами виконання контейнерів, такими як containerd або CRI-O, дозволяючи контейнерам отримувати доступ до апаратного забезпечення GPU та бібліотек CUDA на вузлі.
GPU Access Layer: Кластери традиційно використовували плагін пристрою NVIDIA для запиту GPU за допомогою простих цілочисельних значень. З запровадженням драйвера DRA кластери можуть прийняти нову ресурсну модель нативного Kubernetes. Драйвер GPU установлює та управляє драйвером DRA для GPU у майбутньому релізі. Використання плагіна пристрою та драйвера DRA в одному кластері є взаємовиключним.
DCGM Exporter: Експортує телеметрію, таку як витрата енергії, температура та метрики використання в Prometheus для моніторингу.
GPU Feature Discovery (GFD): автоматично позначає вузли Kubernetes можливостями GPU, такими як розмір пам’яті або підтримка CUDA.
NVIDIA MIG Manager: дозволяє сучасним GPU, таким як NVIDIA H100, NVIDIA H200 та NVIDIA Blackwell, бути розподіленими на кілька логічних екземплярів GPU за допомогою технології Multi-Instance GPU (MIG).

Отже, GPU Operator виступає в ролі операційної основи інфраструктури GPU у кластерах Kubernetes.

DRA драйвер: сучасна ресурсна модель для GPU

DRA драйвер представляє наступне покоління управління ресурсами GPU для Kubernetes. Історично Kubernetes розглядав GPU як прості цілочисельні ресурси. Навантаження запитувало щось на зразок nvidia.com/gpu:1. Хоча це ефективно, це не відповідало вимогам сучасних AI навантажень.

DRA вводить багатшу модель на основі ResourceClaims, що дозволяє додаткам запитувати дуже специфічні апаратні можливості, замість простого підрахунку GPU.

Приклади включають:

Запит GPU, підключених через NVIDIA NVLink
Запит конкретного GPU-розрізу
Розподіл GPU між вузлами, що ділять області пам’яті

Цей рівень контролю стає критично важливим для сучасних навчальних навантажень, які часто покладаються на тісно пов’язане спілкування між GPU.

DRA також вводить кілька важливих можливостей:

ComputeDomains: Ця абстракція дає змогу багатовузловому NVIDIA NVLink зв’язку. Системи (такі як GB200) можуть дозволити навантаженням на кількох вузлах діяти так, ніби вони працюють на одному величезному GPU.
Container Device Interface (CDI): Замість покладання на змінні середовища, такі як NVIDIA_VISIBLE_DEVICES, CDI вносить пристрої в контейнери через стандартизований інтерфейс, покращуючи надійність і портативність.

З переходом драйвера DRA до CNCF ці можливості стають частиною більш широкої відкритої екосистеми для оркестрації прискорювачів.

KAI Scheduler: планування з урахуванням AI

Ефективне виконання AI навантажень вимагає не лише виділення GPU. Це вимагає рішень щодо планування, які розуміють, як поводяться AI роботи. KAI Scheduler додає шар інтелекту поверх планування Kubernetes. Він базується на GPU Operator та драйвері DRA для забезпечення більш просунутого координування ресурсів.

Ключові можливості включають:

Фракційне виділення GPU: Кілька навантажень можуть ділити GPU, використовуючи розподіл пам’яті або часове дроблення.
Ієрархічна черга: Командам можуть бути надані квоти GPU, а планувальник управляє справедливістю та пріоритезацією в рамках цих квот.
Групове планування для розподіленого навчання: Великі навчальні завдання часто вимагають десятки або сотні GPU одночасно. KAI забезпечує запуск цих завдань лише тоді, коли доступні необхідні ресурси, запобігаючи частково виділеним кластерам, які залишаються без дії.

Ці можливості є критично важливими для організацій, які здійснюють великомасштабні тренувальні трубопроводи або спільні AI платформи.

Canonical Kubernetes: платформа для cloud-native інфраструктури AI

Запуск сучасних AI навантажень вимагає більше, ніж просто GPU та планувальники. Це вимагає платформи Kubernetes, яка є безпечною, легкою в експлуатації та здатною підтримувати великомасштабні, апаратно прискорені навантаження.

Canonical надає дистрибутив Kubernetes, призначений для забезпечення саме цього. Canonical Kubernetes – це легкий, безпечний та сучасний дистрибутив Kubernetes, що включає всі компоненти, необхідні для розгортання та експлуатації кластеру, готового до виробництва. Він об’єднує важливі служби, необхідні для кластерів Kubernetes, включаючи середовище виконання контейнерів, мережу (CNI), DNS, вхідний трафік та інші операційні компоненти, що дозволяє командам розгортати та управляти кластерами з мінімальними операційними витратами.

Безпосередньо базуючись на Kubernetes, Canonical Kubernetes зберігає сумісність з більшою екосистемою cloud-native, спрощуючи управління життєвим циклом. Оновлення безпеки та релізи Kubernetes постачаються в спрощеному режимі, дозволяючи командам залишатися в актуальному стані без операційної складності, яка зазвичай пов’язана з підтримкою кластера. Canonical Kubernetes призначений для підтримки розгортання в широкому спектрі середовищ; від малих кластерів, які використовуються для експериментів, до великих корпоративних розгортань, що працюють у кількох регіонах. Платформа природно інтегрується з більшою відкритою інфраструктурною стекою від Canonical і отримує вигоду від надійності та безпеки Ubuntu.

Для організацій, які запускають AI навантаження, це забезпечує стабільну основу для функціонування екосистеми графічних процесорів NVIDIA. Компоненти, такі як GPU Operator, драйвер DRA та просунуті планувальники можуть бути розгорнуті на базі Canonical Kubernetes для можливості запуску машинного навчання з прискоренням GPU, розподілених навчальних кластерів та масштабованих платформ для виводу.

Разом Canonical Kubernetes та еволюціонуюча екосистема інфраструктури NVIDIA AI забезпечують базові блоки, необхідні для запуску сучасної AI інфраструктури за допомогою відкритих, cloud-native технологій.

Чому donation до CNCF має значення

Donation драйвера DRA до CNCF представляє собою значний крок до того, щоб зробити просунуту оркестрацію GPU основоположною частиною екосистеми Kubernetes. Це прискорює впровадження ресурсних моделей для GPU, побудованих на Kubernetes, заохочує інновації, зосереджені на спільноті, і зміцнює базу для масштабних AI навантажень. Оскільки інфраструктура AI стає все більш важливою для сучасних платформ, відкрита співпраця навколо основних технологій, таких як планування GPU та виділення ресурсів, зіграє ключову роль у формуванні наступного покоління cloud-native систем.

Про Canonical

Canonical, видавець Ubuntu, забезпечує безпеку, підтримку і послуги. Наша продуктова лінійка охоплює критично важливі системи, від найменших пристроїв до найбільших хмар, від ядра до контейнерів, від баз даних до AI. З клієнтами, у число яких входять провідні технічні марки, стартапи, уряди та домашні користувачі, Canonical надає надійне відкриття для всіх.

Дізнайтеся більше на canonical.com.