Загальне бачення Ілона Маска для різних технологічних секторів тепер зосереджено на штучному інтелекті (ШІ) за допомогою xAI, компанії, створеної з метою розробки ШІ. У центрі цих зусиль знаходиться Colossus, один із найпотужніших у світі суперкомп’ютерів, який може радикально змінити можливості ШІ.
Створення Colossus є ключовим досягненням не лише для xAI Маска, але й для спільноти штучного інтелекту в цілому, яка хоче відігравати провідну роль у впровадженні технології.
Витоки та бачення xAI
xAI був офіційно створений у середині 2023 року Маском, генеральним директором Tesla та SpaceX, з метою «дізнайтеся, як виглядає реальний світ».
Згідно з заявою про місію, «xAI — це компанія, яка працює над створенням штучного інтелекту для прискорення наукових відкриттів людиною. Ми керуємося нашою місією — покращити наше колективне розуміння Всесвіту».
За словами Маска, він заснував компанію, тому що почав турбуватися про небезпеку нерегульованого ШІ. xAI має заявлену мету використовувати штучний інтелект для наукових відкриттів, але в спосіб, який не є експлуатаційним.
Суперкомп’ютер xAI призначений для проведення передових досліджень штучного інтелекту, від машинного навчання до нейронних мереж із планом використання Colossus для навчання великих мовних моделей (наприклад, GPT-серії OpenAI) і розширення інфраструктури на такі сфери, як автономні машини, робототехніка та наука. моделювання.
Колос
Colossus був запущений у вересні 2024 року в Мемфісі, Теннессі. Центр обробки даних розташований на території колишнього виробничого майданчика Electrolux (фото тут) в індустріальному парку Південного Мемфіса.
Адміністрація долини штату Теннессі схвалила угоду про забезпечення місця понад 100 мегават електроенергії.
Система Colossus починалася зі 100 000 графічних процесорів Nvidia H100, що зробило її однією з найважливіших у світі платформ для навчання ШІ.
Розгортання цих графічних процесорів за 19 днів підкреслило зосередженість xAI на швидкому масштабуванні інфраструктури ШІ.
Враховуйте, що налаштування такої розгалуженої інфраструктури зазвичай займає місяці, навіть роки, саме розгортання привернуло значну увагу ЗМІ та галузі центрів обробки даних/ШІ.
Це початкове налаштування зі 100 000 графічних процесорів дозволило йому досягти високого рівня обробки, що зробило xAI здатним працювати над складними моделями штучного інтелекту на найсучасніших швидкостях.
Ця швидкість і ефективність є важливими з огляду на постійно зростаючу складність і розмір сучасних моделей штучного інтелекту, які потребують живлення величезних наборів даних і використання величезної обчислювальної потужності.
Багато в чому модель «якщо ви створите, вони прийдуть», проекти LLM зосереджені на використанні доступної обчислювальної потужності.
Плани розширення та оновлення
У листопаді 2024 року xAI оголосив, що подвоїть потужність Colossus за допомогою багатомільярдної угоди.
Фірма планує залучити 6 мільярдів доларів у найближчі роки, причому основна частина їх надходить із державних фондів Близького Сходу.
Він покриє витрати на додавання ще 100 000 графічних процесорів до існуючого набору, довівши його до 200 000.
Заплановане оновлення додасть нові графічні процесори Blackwell H200 від Nvidia, які є ще потужнішими, ніж графічні процесори H100, які спочатку постачалися.
NVIDIA натрапляє на заковику
Графічні процесори H200 забезпечують значне покращення продуктивності та ефективності та дозволять xAI швидше й точніше навчати моделі штучного інтелекту.
Ці графічні процесори оптимізовані для виконання глибокого навчання та навчання нейронних мереж, тому вони ідеально підходять для великих проектів штучного інтелекту xAI.
За словами Nvidia, графічні процесори Blackwell можуть бути в 20 разів швидшими за графічні процесори попереднього покоління, залежно від робочого навантаження.
Однак доставка графічного процесора Blackwell клієнтам зіткнулася з проблемою.
Доставка чіпів наступного покоління клієнтам вже була відкладена на чверть через те, що Nvidia виявила та виправила деякі недоліки конструкції.
Виникла нова затримка, оскільки було повідомлено, що конфігурація 72 GPU перегрівалася в спеціально розроблених серверних стійках Nvidia.
Yahoo Finance повідомила, що повідомлення про проблему призвело до падіння вартості акцій Nvidia майже на 3%, навіть незважаючи на те, що можлива затримка постачання GB200 у 2025 році не була підтверджена, а також Nvidia не бажала коментувати, чи остаточний дизайн для серверних стійок завершено.
Ця більша інфраструктура Colossus значно полегшить для xAI створення та тестування своїх моделей штучного інтелекту (зокрема LLM Grok).
Вони покликані кинути виклик і, можливо, навіть перевершити нині домінуючі системи штучного інтелекту, такі як GPT-4 від OpenAI і Bard від Google.
Розроблено для ШІ
Colossus відрізняється від інших суперкомп’ютерів не лише базовою обчислювальною потужністю, але й спеціально розробленою інфраструктурою ШІ.
Система створена для задоволення особливих потреб навчання штучного інтелекту — обробки величезних обсягів даних і запуску високорозвинених алгоритмів, які потрібно розпаралелювати.
Як повідомлялося, як Dell Technologies, так і Supermicro співпрацювали з xAI для створення суперкомп’ютера.
Комбінація графічних процесорів Nvidia H100 і H200 надасть Colossus явну перевагу, коли справа стосується швидкості та ефективності. Ці графічні процесори також мають спеціальні тензорні ядра, які допомагають прискорити алгоритми глибокого навчання.
Крім того, пропускна здатність пам’яті цих графічних процесорів достатньо потужна, щоб ефективно обробляти великі набори даних, необхідні для навчання останніх моделей ШІ.
Основним будівельним блоком Colossus є універсальна система графічного процесора Supermicro 4U Liquid Cooled.
Кожен сервер 4U оснащено вісьмома графічними процесорами NVIDIA H100 Tensor Core, що забезпечує значну обчислювальну потужність для завдань навчання ШІ.
Сервери організовані в стійки, кожна з яких містить вісім серверів 4U, що становить 64 графічних процесора на стійку.
Між кожним сервером 4U є колектор для рідинного охолодження, що займає 1U простору стійки, а основа кожної стійки містить насосну систему 4U CDU, що забезпечує резервне охолодження, і блок керування.
Мережа Ethernet
Сервери з’єднані між собою за допомогою мережевої платформи NVIDIA Spectrum-X Ethernet, що забезпечує зв’язок із високою пропускною здатністю та малою затримкою, необхідним для навчання ШІ.
Кожен сервер оснащено декількома з’єднаннями 400GbE, які працюють на кабелях з підтримкою 800 GBE, а не за допомогою опції Infiniband, яка також підтримується Nvidia для широкомасштабного розгортання.
У поточній архітектурі кожен графічний процесор у кластері отримує спеціальну мережеву інтерфейсну карту на 400 ГБ з додатковим NIC на 400 ГБЕ, виділеним для сервера, для потенційної загальної пропускної здатності 3,6 ТБ на сервер.
Є 512 GPU на масив (8 стійок по 64 GPU) і майже 200 масивів.
У жовтні глава NVIDIA Дженсен Хуанг оголосив, що весь початковий суперкомп’ютер зі 100 000 графічних процесорів був створений лише за 19 днів, порівнюючи це з тим, що він назвав нормальним чотирирічним процесом створення середнього центру обробки даних.
Дорожня карта
Отже, що робить компанія з усією цією владою?
Сімейство великих мовних моделей Grok є основною метою xAI. Такі моделі інтерпретують і створюють текст, схожий на людину, як і серія GPT OpenAI.
Моделі Grok повинні бути ефективнішими та потужнішими, ніж поточні мовні моделі, завдяки обчислювальним можливостям Colossus.
Окрім мовних моделей, xAI також має намір розвивати інші програми ШІ, такі як автономні транспортні засоби, робототехніка та наукове моделювання. За допомогою Colossus xAI має намір випробувати можливості штучного інтелекту в цих сферах.
Компанія, наприклад, вивчає можливість використання ШІ в науці для пошуку нових матеріалів, економії енергії та навіть допомоги у пошуку нових ліків.
(І якщо ви думаєте, що вся ця потужність використовується для того, щоб зробити безпілотні автомобілі Tesla реальністю, існує зовсім інший суперкомп’ютер AI, призначений для цього завдання, тобто суперкластер Cortex AI із 50 000 графічних процесорів, розташований на заводі Tesla GigaTexas.)
Наприкінці минулого місяця веб-сайт ServeTheHome.com зміг опублікувати екскурсію по xAI Colossus, зазначивши, що хоча його розгортання тривало 19 днів, на створення всієї інфраструктури знадобилося лише 122 дні.