Автоматизація bare metal в інфраструктурі штучного інтелекту

Операційні виклики в сучасній інфраструктурі штучного інтелекту

З ростом масштабів платформ штучного інтелекту багато обмежувальних факторів вже не пов’язані з дизайном моделі або алгоритмічною продуктивністю, а з експлуатацією підлягаючої інфраструктури. GPU-акселератори є ключовими компонентами і відповідають за значну частину загальних витрат системи, що робить їх безперервну доступність і стабільну роботу критично важливими для виходу і ефективності всієї платформи ШІ. Однак апаратні збої, проблеми з драйверами і конфігураційні проблеми трапляються періодично, знижуючи використання обсягу.

Ці виклики стають більш помітними в великих безперервно працюючих середовищах, таких як AI Factories, де інфраструктура має працювати з високим використанням протягом тривалих періодів часу. У таких розгортаннях навіть короткі збої на апаратному рівні безпосередньо призводять до втрати продуктивності і зниження повернення на інвестиції. В результаті надійність і керованість фізичної інфраструктури стали центральними питаннями в проектуванні та експлуатації сучасних систем штучного інтелекту. У цій статті ми розглянемо, чому автоматизація bare metal стала настільки важливою для інфраструктури штучного інтелекту, і підкреслимо, як Canonical MAAS може стати рішенням для AI Factories.

AI Factories: хмарне програмне забезпечення, фізичне апаратне забезпечення

AI Factories – це великомасштабні середовища штучного інтелекту, призначені для постійної роботи, перетворюючи дані та обчислювальну потужність у моделі, прогнози або згенерований контент. Вони зазвичай створені для максимізації продуктивності від дорогих апаратних акселераторів та для підтримки постійного потоку навчальних та інференсних навантажень. Цей термін є відносно новим і описує клас розгортань, де ефективність, повторюваність та стабільне використання є основними цілями проектування.

З архітектурної точки зору, AI Factories є хмарними на рівні програмного забезпечення. Навантаження звичайно контейнеризовані та оркеструються за допомогою Kubernetes, що забезпечує планування, ізоляцію та автоматизацію для завдань ШІ. Водночас ці середовища часто покладаються на прямий доступ до фізичних серверів для задоволення вимог до продуктивності. Віртуалізація часто уникалася, щоб зберегти низьку затримку, повний доступ до GPU та швидкісні мережі. В результаті виникає багатошарова архітектура, в якій хмарне програмне забезпечення залежить від стабільного, узгодженого та ефективно керованого фізичного фундаменту.

Роль автоматизації bare metal в інфраструктурі штучного інтелекту

В цих щільно завантажених середовищах штучного інтелекту проблеми з апаратним забезпеченням і програмним забезпеченням нижчого рівня не є винятковими подіями, а очікуваними операційними умовами. Апаратні збої, несумісності драйверів, помилки на рівні ядра і зміни конфігурацій регулярно трапляються на великому масштабі і призводять до непрацюючих машин, зазвичай на тривалі періоди. Якщо відновлення і повторне налаштування залежать від ручного втручання, ці збої безпосередньо призводять до тривалого простою і зниження потужності апаратного забезпечення – ось тут і виникає автоматизація bare metal.

Автоматизація bare metal означає автоматизоване забезпечення, конфігурацію та управління життєвим циклом фізичних серверів. Це включає в себе розгортання операційної системи, конфігурацію та валідацію апаратного забезпечення. Вона дозволяє командам інфраструктури підтримувати узгоджений і здоровий інвентар, легко повторно налаштовувати вузли і відновлюватися після апаратних або системних збоїв з мінімальним ручним втручанням. За допомогою автоматизації bare metal організації можуть розглядати фізичні сервери як гнучкі ресурси, обмежуючи оперативний вплив апаратних збоїв і підтримуючи вищий рівень ефективної потужності на всій платформі ШІ.

Canonical MAAS як основа для операцій AI Factories

Фізичні ресурси як хмарні

Canonical MAAS пропонує спосіб управління bare metal інфраструктурою з тими ж очікуваннями автоматизації та еластичності, які зазвичай пов’язані з хмарними платформами. Він перетворює фізичні сервери на програмовані ресурси, які можуть бути забезпечені, перепрофільовані та повторно розгорнуті через автоматизовані робочі процеси, а не вручну. Підтримка інструментів Infrastructure as Code, таких як Terraform, забезпечує повну інтеграцію з рештою інфраструктури ШІ.

Ця гнучкість особливо добре підходить для середовищ ШІ, де апаратне забезпечення повинно швидко підключатися до мережі, надійно відновлюватися після збоїв і переназначатися в залежності від змін у вимогах навантаження.

Прогнозоване управління життєвим циклом

Вузли постійно доступні з MAAS через контролер управління платою (BMC), який забезпечує канал поза бандом, що дозволяє MAAS контролювати живлення та повний життєвий цикл вузлів:

  • Виявлення: Нові машини виявляються та додаються до інвентаря
  • Комісія: Визначення апаратних можливостей машин (ЦП, пам’ять, мережеві інтерфейси, диски тощо)
  • Розгортання: Розгортання операційної системи, використовуючи PXE-завантаження на машині
  • Перепрофілювання: Вивільнення машини, щоб її можна було повторно використати

MAAS спілкується з вузлами через контролер управління платою (BMC), який керує повним життєвим циклом машин, що дозволяє автоматизоване розгортання, відновлення та переробку серверів і дозволяє повернути в роботу некоректно або неправильно налаштовані вузли з мінімальною затримкою.

Критичним аспектом цієї моделі є валідація апаратного забезпечення та управління здоров’ям. MAAS підтримує тестування апаратного забезпечення як частину процесу, що дозволяє перевірити системи перед їх введенням у виробництво. Це зменшує ризик впровадження несправних компонентів в активні AI-кластери. Крім того, регулярне тестування та моніторинг здоров’я апаратного забезпечення допомагають виявляти деградацію або приховані збої з часом, забезпечуючи проактивне обслуговування замість реактивного відновлення.

Всі ці можливості допомагають забезпечити, щоб фізичний шар залишався стабільним та передбачуваним.

Основи для Kubernetes на bare metal

Як постачальник хмари на bare metal, MAAS може слугувати як фізична хмара під Kubernetes. Він доповнює оркестрацію навантаження, забезпечуючи, що базове апаратне забезпечення залишається доступним та узгодженим. MAAS повністю інтегрований з Juju. Ця комбінація забезпечує повну оркестрацію системи, що дозволяє координувати управління фізичними машинами та навантаженнями.

Операції інфраструктури та повернення на інвестиції

Є багато факторів, які впливають на ефективність інфраструктури ШІ. Планування та управління навантаженням впливають на продуктивність, але доступність апаратного забезпечення залежить переважно від операцій інфраструктури. Отже, загальний вихід платформи штучного інтелекту залежить від стабільної доступності апаратного забезпечення та ідеальної координації з управлінням навантаженнями. Повільне розгортання, непослідовні конфігурації та тривалі процеси відновлення знижують ефективну потужність і збільшують вартість за одиницю виходу ШІ.

Автоматизуючи забезпечення bare metal та управління життєвим циклом, команди інфраструктури можуть знизити простої, поліпшити узгодженість та зберегти більше акселераторів у продуктивному використанні. Таким чином, поліпшення в операціях інфраструктури безпосередньо перетворюються на вищу завантаженість і краще повернення на інвестиції.

Для організацій, які експлуатують великі платформи штучного інтелекту, включаючи AI Factories, автоматизація bare metal є ключовим фактором економічної ефективності системи. Kubernetes забезпечує оркестрацію навантаження, але автоматизоване управління bare metal визначає, наскільки надійно інфраструктура штучного інтелекту може забезпечити цінність.

Наступні кроки

Щоб детальніше вивчити ці теми, нижчезазначені ресурси надають додаткову інформацію та практичні рекомендації:

Зв’яжіться з нами сьогодні

Цікавитеся використанням Ubuntu у вашій організації?

Підписка на новини

Отримуйте останні новини та оновлення Ubuntu на вашу пошту.

Подавши цю форму, я підтверджую, що прочитав і погоджуюсь з Політикою конфіденційності Canonical.