Анонс на KubeCon 2026: DRA драйвер від NVIDIA

Анонс на KubeCon 2026: Canonical вітає donation від NVIDIA GPU DRA драйвера до CNCF

На KubeCon Європа в Амстердамі NVIDIA оголосила про donation GPU DRA драйвера до Cloud Native Computing Foundation (CNCF). Це важлива подія для екосистеми Kubernetes та майбутнього інфраструктури штучного інтелекту.

Протягом багатьох років графічні процесори (GPU) були в центрі сучасного машинного навчання та обчислювальних навантажень з високою продуктивністю. Однак інтеграція їх у Kubernetes вимагала спеціалізованих інструментів та елементів від постачальників. Donation DRA драйвера означає перехід до глибшої стандартизації оркестрації GPU в хмарних середовищах. Завдяки цьому рішенням, яке підтримується NVIDIA, розвиваються можливості для вдосконаленого планування GPU у відкритому середовищі разом із ширшою спільнотою Kubernetes.

Цей внесок зміцнює Kubernetes як платформу для великих навантажень штучного інтелекту та створює основу для більш гнучкого, програмного управління ресурсами GPU. Щоб зрозуміти, чому це важливо, необхідно розглянути ширшу екосистему NVIDIA GPU, яка підтримує AI навантаження у Kubernetes.

Екосистема NVIDIA GPU для Kubernetes

Станом на 2026 рік стеки NVIDIA GPU у Kubernetes організовані на трьох основних рівнях: GPU Operator, Modern Resource Stack на основі DRA та вдосконалені можливості оркестрації, такі як KAI Scheduler. Ці компоненти перетворюють GPU з простих апаратних акселераторів на повністю оркестровані інфраструктурні ресурси.

GPU Operator: автоматизація GPU інфраструктури

NVIDIA GPU Operator автоматизує керування життєвим циклом програмного забезпечення, необхідного для роботи GPU в кластері Kubernetes. Замість того щоб змушувати адміністраторів вручну налаштовувати драйвера, середовища виконання та моніторингові інструменти, оператора автоматично розгортає та управляє цими компонентами. Це забезпечує послідовне, готове до виробництва середовище для навантажень GPU.

Типові компоненти, які розгортаються оператором, включають:

NVIDIA Driver: Модулі ядра та бібліотеки користувацького простору, необхідні для роботи GPU.
NVIDIA Container Toolkit: Інтегрує GPU з контейнерними середовищами виконання, такими як containerd або CRI-O.
GPU Access Layer: З новим DRA драйвером кластери можуть приймати нову модель ресурсів Kubernetes.
DCGM Exporter: Експортує телеметрію для моніторингу.
GPU Feature Discovery (GFD): Автоматично позначає вузли Kubernetes за можливостями GPU.
NVIDIA MIG Manager: Дозволяє сучасним GPU, таким як NVIDIA H100, розділятися на кілька логічних екземплярів.

Отже, GPU Operator діє як операційна основа GPU інфраструктури у кластерах Kubernetes.

DRA драйвер: сучасна модель ресурсів для GPU

DRA драйвер представляє нове покоління управління ресурсами GPU для Kubernetes. Історично, Kubernetes розглядав GPU як прості цілі числа. Модель DRA дозволяє запитувати конкретні апаратні можливості, замість простого підрахунку GPU.

Приклади запитів включають:

Запит GPU, підключених через NVIDIA NVLink
Запит конкретної частини GPU
Розподіл GPU між вузлами, що ділять пам’ять

Цей рівень контролю є важливим для сучасних навчальних навантажень, які часто покладаються на тісну комунікацію між GPU.

KAI Scheduler: AI-орієнтоване планування

Ефективне виконання AI навантажень вимагає не лише виділення GPU. Необхідні рішення щодо планування, які враховують поведінку AI завдань. KAI Scheduler додає інтелектуальний рівень планування в Kubernetes.

Ключові можливості включають:

Фракційне виділення GPU: Кілька навантажень можуть ділити GPU.
Ієрархічні черги: Командам можуть бути надані квоти на GPU.
Групове планування для розподіленого навчання: KAI забезпечує, щоб ці роботи починалися лише тоді, коли доступні необхідні ресурси.

Canonical Kubernetes: платформа для хмарної інфраструктури AI

Керування сучасними AI навантаженнями вимагає не лише GPU та планувальників. Потрібна платформа Kubernetes, яка є безпечною та простою в експлуатації.

Canonical пропонує дистрибуцію Kubernetes, спроектовану для надання таких можливостей. Canonical Kubernetes – це легка, безпечна дистрибуція, що включає усі необхідні компоненти для розгортання та експлуатації кластеру. Вона поєднує основні сервіси для кластерів Kubernetes та полегшує управління життєвим циклом інфраструктури.

Для організацій, які виконують AI навантаження, це забезпечує стабільну основу для роботи з екосистемою NVIDIA GPU. Компоненти, такі як GPU Operator, DRA драйвер та вдосконалені планувальники, можуть бути розгорнуті над Canonical Kubernetes для створення машинних навчальних трубопроводів, розподілених навчальних кластерів та масштабованих платформ для інференції.

Чому donation до CNCF важливий

Donation DRA драйвера до CNCF є важливим кроком до створення сучасної оркестрації GPU у екосистемі Kubernetes. Це прискорює прийняття Kubernetes-орієнтованих моделей ресурсів для GPU та сприяє інноваціям за участю спільноти.