Шлях вперед: боротьба з розповсюдженням Kubernetes та підтримкою навантажень AI

Шлях вперед: боротьба з розповсюдженням Kubernetes та підтримкою навантажень AI

Команди інженерних платформ сьогодні стикаються з безпрецедентними проблемами. Інфраструктурний ландшафт принципово перетворився з появою хмарних технологій, мікросервісів та останнім часом, інтенсивними робочими навантаженнями AI. Що колись було відносно простим завданням управління монолітними додатками, тепер перетворилося на завдання оркестрування тисяч мікросервісів через локальні ресурси даних про обробку даних та хмарних обчислень, а також необхідність задовольнити унікальні вимоги робочих навантажень AI та ML.

Революція інфраструктури AI

Нові потреби навантажень AI справді представляють поетапну зміну потреб у інфраструктурі, завдяки наступним факторам:

  • Безпрецедентний масштаб: один запуск AI-тренування часто вимагає більшої обчислювальної потужності, ніж ціла веб-інфраструктура компанії кілька років тому.
  • Спеціалізована апаратна економіка: сервери GPU коштують приблизно в десять разів більше, ніж стандартні сервери, що робить використання критичним.
  • Унікальні проблеми безпеки: Моделі вразливі до атак отруєння даними під час тренувань та умовних атак, де інформація може бути складена разом.

Організації намагаються інтегрувати робочі навантаження AI з існуючими виробничими послугами та середовищами розвитку, створюючи складні проблеми розподілу ресурсів, як ніколи. Оскільки сервери GPU коштують в розмірі 50 000 доларів США на кожні кластери AI, які легко потребують мільйонів доларів інвестицій, організації повинні бути пильними для забезпечення ефективності використання ресурсів.

Відкритий код є важливим

Економіка та складність сучасної інфраструктури створюють потужні імперативи для технологій з відкритим кодом.

  • Колективні інновації: жоден постачальник не може йти в ногу з швидко розвивається потребами в інфраструктурі. Підхід громади має набагато більше потенціалу.
  • Можливості налаштування: неминуче організації повинні змінювати та розширювати інструменти інфраструктури для своїх унікальних вимог.
  • Прозорість безпеки: повинна бути повна видимість у різних технологіях, що використовуються для побудови інфраструктури та того, як вони управляють та захищають активи.
  • Незалежність постачальників: Постачальники повинні мати свободу адаптуватися в міру розвитку варіантів і виникають нові вимоги до розгортання.
  • Економіка розгортання Edge: Організації не можуть дозволити витрати на ліцензування преміум -класу на програмне забезпечення, що працюють на тисячах крайових пристроїв, які в іншому випадку можуть стати привабливим варіантом розгортання для поширення навантажень на обробку.

Спільнота з відкритим кодом виявилася особливо ефективною у розробці розподілу графічних процесорів, планування навантаження та рішення щодо абстракції обладнання, які можна налаштувати для конкретних сценаріїв розгортання, зберігаючи послідовні інтерфейси управління.

Крім того, Kubernetes випереджає свою початкову роль як контейнерний оркестр, щоб стати стандартним рівнем абстракції для управління інфраструктурою. Вперед, Kubernetes відіграватиме ключову роль у управлінні інфраструктурою та послугами AI у різних провайдерів.

  • Послідовна площина контролю: Завдяки таким проектам, як кластер API, організації можуть забезпечити та керувати інфраструктурою за допомогою самого Kubernetes.
  • Стандартизовані розширення: кермові графіки, спеціальні визначення ресурсів (CRDS) та оператори забезпечують послідовні шаблони для розширення функціональності.
  • Уніфіковані інтерфейси: такі стандарти, як CNI та CSI, гарантують, що мережеві та конфігурації зберігання працюють послідовно в умовах середовища.
  • Комплексні політики: такі інструменти, як агент відкритої політики та Kyverno, інтегруються в систему управління вступами Kubernetes.

Інфраструктура на основі Kubernetes та відкритих стандартів забезпечує основу для організацій для створення внутрішніх платформ розробників (ВПО), а не створення власних абстракцій. Команди платформи можуть використовувати встановлені шаблони, які послідовно працюють в різних комп'ютерних інфраструктурах, оскільки вони взаємодіють із стандартними API Kubernetes, а не з специфічними для постачальників API.

Шлях вперед

Організації досі стикаються з значними проблемами в управлінні складністю сучасної інфраструктури. Завдяки розповсюдженню кластерів для підтримки різних середовищ, команд та навантажень, розповсюдження Kubernetes представила такі проблеми, як накладні витрати, непослідовна політика та ризики невідповідності.

Одночасно необхідність підтримки спеціалізованої інфраструктури AI разом із традиційними робочими навантаженнями представила нові виклики у розподілі ресурсів, безпеці та операційній ефективності.

Організації потребують рішень, які можуть:

  • Уніфікувати управління в різних кластерах та середовищах
  • Стандартизувати розгортання за допомогою шаблонів та моделей багаторазового використання
  • Забезпечення політики послідовно по всій інфраструктурі
  • Оптимізуйте ресурси як для традиційних, так і для AI робочих навантажень
  • Забезпечте всебічну спостережливість у всій інфраструктурі

Шлях вперед вимагає переосмислення того, як ми підходимо до управління інфраструктурою. Замість того, щоб керувати окремими кластерами як окремими організаціями, організаціям потрібен єдиний підхід, який використовує стандартизацію Kubernetes, вирішуючи його операційну складність.

Для підтримки та управління різноманітними вимогами сучасних додатків та навантажень AI та забезпечення ефективних та послідовних операцій організації потребують таких можливостей:

  • Уніфікована площина управління: здатність керувати декількома кластерами для різних постачальників через один інтерфейс
  • Декларативна композиція платформи: Визначте цілі стека платформи як код за допомогою шаблонів багаторазового використання
  • Складне розподіл ресурсів: оптимізуйте використання як стандартного, так і спеціалізованого обладнання
  • Спостережність крос-кластера: співвідношення подій та показників у всій інфраструктурі
  • Комплексне управління політикою: виконання вимог до безпеки та відповідності послідовно по всій інфраструктурі
  • Підтримка краю: ефективно керуйте розгортанням у центральних та крайових місцях.

Організації потребують рішення з відкритим кодом, які ґрунтуються на встановлених моделях Kubernetes, забезпечуючи розширення для вирішення конкретних вимог до навантаження. Приймаючи технології, які забезпечують уніфіковане управління, стандартизовані розгортання, послідовну політику та комплексну спостереження, організації можуть подолати проблеми розповсюдження Кубернета, одночасно підтримуючи інтенсивні вимоги навантажень AI.

Цей підхід дозволяє командам платформи забезпечити надійну, масштабовану інфраструктуру, яка обслуговує як традиційні програми, так і системи AI наступного покоління, позиціонував організації для успіху у все більш складному цифровому ландшафті.

Kubecon + Cloudnativecon EU 2025 проходить у Лондоні з 1-4 квітня. Зареєструйтесь зараз.