Автоматизація bare metal для сучасних систем ШІ

Операційні виклики в сучасній інфраструктурі ШІ

Коли платформи ШІ зростають у масштабах, багато обмежуючих факторів більше не пов’язані з дизайном моделей або алгоритмічною продуктивністю, а з операціями підлягаючої інфраструктури. Акселератори GPU є ключовими компонентами та відповідають за велику частину загальних витрат системи, що робить їх безперервну доступність та стабільну роботу критично важливими для виходу та ефективності всієї платформи ШІ. Проте, апаратні збої, проблеми з драйверами та конфігурацією відбуваються періодично, знижуючи використовувану ємність.

Ці виклики стають більш помітними в великих, безперервно працюючих середовищах, таких як AI Factories, де інфраструктура очікується, що вона працює з високою завантаженістю протягом тривалих періодів. У таких розгортаннях, навіть короткі збої на рівні апаратного забезпечення безпосередньо перетворюються на втрачений через пут і зменшення повернення на інвестиції. Як наслідок, надійність і управління фізичною інфраструктурою стали центральними питаннями в проектуванні та експлуатації сучасних систем ШІ. У цій статті ми дослідимо, чому автоматизація bare metal стала такою критичною для інфраструктури ШІ, і підкреслимо, як Canonical MAAS може стати рішенням для AI Factories.

AI Factories: хмарні програмні рішення та апаратне забезпечення bare metal

AI Factories – це великомасштабні середовища ШІ, розроблені для безперервної роботи, перетворюючи дані та обчислювальні потужності у моделі, прогнози або створений контент. Вони зазвичай створюються для максимізації пропускної здатності дорогого апаратного забезпечення акселераторів та підтримки постійного потоку навчальних та інферентних навантажень. Цей термін є відносно новим, і він описує клас розгортань, де ефективність, повторюваність і стійке використання є основними цілями дизайну.

З архітектурної точки зору, AI Factories є хмарними на програмному рівні. Навантаження зазвичай контейнеризуються та організовуються з використанням Kubernetes, що забезпечує планування, ізоляцію та автоматизацію для завдань ШІ. Водночас, ці середовища часто покладаються на прямий доступ до фізичних серверів для задоволення вимог до продуктивності. Віртуалізацію зазвичай уникають, щоб зберегти низьку затримку, повний доступ до GPU та швидкісну мережу. Результатом є структурована архітектура, в якій хмарне програмне забезпечення залежить від основи bare metal, яка повинна бути стабільною, послідовною та ефективно керованою.

Роль автоматизації bare metal в інфраструктурі ШІ

У цих середовищах ШІ з великою кількістю GPU, проблеми з апаратним забезпеченням і низькорівневим програмним забезпеченням не є винятковими подіями, а є очікуваними операційними умовами. Апаратні збої, несумісності драйверів, помилки на рівні ядра та зміни конфігурації відбуваються регулярно і призводять до непрацездатних машин, зазвичай на тривалий період. Якщо відновлення та повторне постачання залежать від ручного втручання, ці збої безпосередньо призводять до тривалого простою та зменшеної потужності апаратного забезпечення – тут і приходить на допомогу автоматизація bare metal.

Автоматизація bare metal відноситься до автоматичного постачання, налаштування та управління життєвим циклом фізичних серверів. Це включає розгортання операційної системи, конфігурацію і валідацію апаратного забезпечення. Це дозволяє командам з інфраструктури підтримувати послідовний і здоровий інвентар, легко повторно постачати вузли та відновлюватися після апаратних збоїв з мінімальним ручним втручанням. Завдяки автоматизації bare metal, організації можуть розглядати фізичні сервери як гнучкі ресурси, зменшуючи операційний вплив апаратних збоїв та підтримуючи вищий рівень ефективної потужності по всій платформі ШІ.

Canonical MAAS як основа для операцій AI Factories

Bare metal як ресурси хмарного типу

Canonical MAAS надає можливість керувати інфраструктурою bare metal з тими ж очікуваннями автоматизації та еластичності, що зазвичай асоціюються з хмарними платформами. Це перетворює фізичні сервери на програмовані ресурси, які можуть бути налаштовані, перевлаштовані та повторно призначені через автоматизовані робочі процеси, а не ручні процеси. Підтримка інструментів “Infrastructure as Code”, таких як Terraform, забезпечує повну інтеграцію з рештою інфраструктури ШІ.

Ця гнучкість особливо добре підходить для середовищ ШІ, де апаратура повинна бути швидко запущена, надійно відновлена після збоїв і переназначена в залежності від змін вимог навантаження.

Прогнозоване управління життєвим циклом

Вузли постійно доступні з MAAS через контролер керування платою (BMC), який забезпечує поза смугою канал, що дозволяє MAAS контролювати живлення та повний життєвий цикл вузлів:

  • Виявлення: Нові машини виявляються та додаються до інвентарю
  • Комісування: Визначає можливості апаратного забезпечення машин (ЦП, пам’ять, мережеві інтерфейси, диски тощо)
  • Розгортання: Розгортає операційну систему за допомогою PXE-завантаження на машині
  • Повторне використання: Вивільняє машину для повторного використання

MAAS спілкується з вузлами через контролер керування платою (BMC), який управляє повним життєвим циклом машин, дозволяючи автоматичне постачання, відновлення та переробку серверів, і даючи можливість повернути неуспішні або неправильно налаштовані вузли до роботи з мінімальними затримками.

Критичним аспектом цієї моделі є валідація апаратного забезпечення та управління здоров’ям. MAAS підтримує тестування апаратного забезпечення як частину процесу, дозволяючи перевіряти системи перед їх використанням у виробництві. Це зменшує ризик введення несправних компонентів у активні AI-кластери. Крім того, регулярне тестування та моніторинг здоров’я апаратного забезпечення допомагають виявляти деградацію або приховані збої з часом, забезпечуючи проактивне обслуговування замість реактивного відновлення.

Всі ці можливості допомагають забезпечити, щоб фізичний рівень залишався стабільним і прогнозованим.

Основи для bare metal Kubernetes

Як постачальник bare metal хмари, MAAS може служити фізичною хмарою під Kubernetes. Він доповнює оркестрацію навантажень, забезпечуючи, що підлягаюче апаратне забезпечення залишається доступним і послідовним. MAAS повністю інтегрований з Juju. Ця комбінація забезпечує повну системну оркестрацію, дозволяючи скоординоване управління фізичними машинами та навантаженнями.

Операції інфраструктури та повернення на інвестиції

Існує багато чинників, які впливають на ефективність інфраструктури ШІ. Планування та управління навантаженнями впливають на продуктивність, але доступність апаратного забезпечення в основному визначається операціями інфраструктури. Отже, загальний вихід платформи ШІ залежить від стабільної доступності апаратного забезпечення та ідеальної координації з управлінням навантаженнями. Повільне постачання, непослідовні конфігурації та довгі процеси відновлення зменшують ефективну ємність та підвищують вартість одиниці продукції ШІ.

Автоматизуючи постачання bare metal та управління життєвим циклом, команди інфраструктури можуть зменшити простої, покращити послідовність і підтримувати більше акселераторів у продуктивному використанні. У такий спосіб покращення в операціях інфраструктури прямо перетворюються на вищу завантаженість та краще повернення на інвестиції.

Для організацій, які експлуатують великі платформи ШІ, включаючи AI Factories, автоматизація bare metal є ключовим чинником економічної продуктивності системи. Kubernetes забезпечує оркестрацію навантажень, але автоматизоване управління bare metal визначає, наскільки надійно інфраструктура ШІ може приносити користь.

Для детальнішого вивчення цих тем, будь ласка, ознайомтеся з ресурсами Canonical.

Зв’яжіться з нами сьогодні

Цікавитесь використанням Ubuntu у вашій організації?