Alibaba Cloud стверджує, що завдяки новій системі пулів скоротить використання GPU Nvidia на 82%.

Alibaba Cloud стверджує, що завдяки новій системі пулів скоротить використання GPU Nvidia на 82%.

Alibaba Group Holding представила рішення для об’єднання обчислень, яке, за його словами, призвело до 82-відсоткового скорочення кількості графічних процесорів (GPU) Nvidia, необхідних для обслуговування моделей штучного інтелекту.

Згідно з дослідницькою статтею, представленою цього тижня на 31-му симпозіумі з принципів операційних систем (SOSP) у Сеулі, Південна Корея, система під назвою Aegaeon проходила бета-тестування на ринку моделей Alibaba Cloud протягом більше трьох місяців, де вона зменшила кількість графічних процесорів Nvidia H20, необхідних для обслуговування десятків моделей із 72 мільярдами параметрів від 1192 до 213.

«Aegaeon є першою роботою, яка розкриває надмірні витрати, пов’язані з обслуговуванням паралельних навантажень LLM на ринку», — пишуть дослідники з Пекінського університету та Alibaba Cloud.

Alibaba Cloud — це підрозділ штучного інтелекту та хмарних сервісів компанії Alibaba з Ханчжоу, якій належить Post. Його головний технічний директор Чжоу Цзінжень є одним із авторів статті.

Постачальники хмарних послуг, такі як Alibaba Cloud і Volcano Engine від ByteDance, обслуговують тисячі моделей штучного інтелекту для користувачів одночасно, що означає, що багато викликів програмного інтерфейсу додатків обробляються одночасно.

Однак невелика кількість моделей, таких як Qwen і DeepSeek від Alibaba, є найпопулярнішими для висновків, а більшість інших моделей використовують лише спорадично. Це призводить до неефективності ресурсів, оскільки 17,7% графічних процесорів призначені для обслуговування лише 1,35% запитів на ринку Alibaba Cloud, виявили дослідники.

Дослідники в усьому світі прагнули підвищити ефективність шляхом об’єднання потужності GPU, дозволяючи, наприклад, одному GPU обслуговувати кілька моделей.