Моделі фундаменту – це великі моделі штучного інтелекту (AI), які навчаються на гумористичних наборах даних, що дозволяють їм виконувати широкий спектр завдань у різних галузях.
Їх називають основними моделями, оскільки вони утворюють основу для інших моделей, які підприємства та особи можуть налаштувати для задоволення своїх бізнесу чи особистих потреб.
Моделі фундаменту також іноді називають кордовими моделями, якщо вони представляють найсучасніші системи AI.
Існують різні типи моделей фундаменту: моделі генерування тексту, такі як попередні моделі GPT та Claude, моделі генерування зображень, такі як стабільна дифузія та DALL-E, моделі відео-генерації, такі як Сора та Вео, та генерація коду, такі як Code Llama, серед багатьох інші.
Цей список буде зосереджений на основних моделях великої мови, з особливими мультимодальними Близнюками як одним винятком:
- Серія GPT та O1 OpenAI
- Сім'я Клод антропіки
- GEMINI's Google
- Серія Meta's Calls
- Флагманська модель Mistral
Після того, як моделі фундаменту спочатку навчаються (або попередньо навчені в галузі Lingo), багато організацій вирішують подальше навчити моделі, щоб надати їм конкретні можливості. Ця подальша підготовка називається тонкою настройкою.
Приклади тонко налаштованих, специфічних галузевих моделей включають наступне:
Розбиття витрат на модель
Тренування моделі фундаменту стала дорожчою, оскільки моделі AI збільшуються та стають більш досконалими. (Ось калькулятор ціноутворення GPT.)
Генеральний директор антропічного Даріо Амодеей заявив, що це може навіть коштувати мільярд доларів або більше для підготовки суперсофізованої моделі. Нещодавно китайський стартап AI DeepSeek викликав перемішування після того, як його розкривало, він зміг зробити це за 5,6 мільйона доларів, але це не включає всі витрати, і його претензії спірні.
Вартість навчання може бути розбита на такі частини:
- Обчислювальна інфраструктура (чіпи AI, центри обробки даних, хмарні обчислення)
- Модельний час навчання
- Витрати на споживання енергії та охолодження
- Збір даних та обробка
- Тонка настройка та оцінка
- Зберігання та мереж
- Інженерний персонал та витрати на дослідження
Ось перелік основних моделей фундаменту та їх орієнтовні витрати на навчання, які використовуються американськими компаніями та доступні через американські хмарні обчислювальні гіганти AWS, Microsoft Azure та Google Cloud:
Також включено їх кількість параметрів. Параметри – це внутрішні числові змінні моделі AI, які регулюються під час тренувань для отримання кращих відповідей. Чим вище кількість параметрів, тим більш здатною є модель AI.
Відкритий
OpenAI – творець Чатгпта, чат -бавота AI, який ввів у вододіл в ШІ. Чатгпт став найшвидше зростаючим споживчим додатком в історії, досягнувши 100 мільйонів щомісячних активних користувачів за два місяці після дебюту в кінці листопада 2022 року. Microsoft-це найбільший інвестор досі, вкладаючи щонайменше 13 мільярдів доларів, але Softbank готує більшу кількість інвестиції.
У вас є модель: OpenAi O1
Випущений: 2024
Параметри: Невідомий
Орієнтовна вартість навчання: Невідомий
У вас є модель: Gpt-4, 4o, 4o-mini, 4-турбо
Випущений: 2023 та 2024
Параметри: 1,7 трлн до 4 трильйона
Орієнтовна вартість навчання: 78 мільйонів доларів лише для GPT-4
У вас є модель: GPT-3, 3,5
Випущений: 2020
Параметри: 175 мільярдів для GPT-3
Орієнтовна вартість навчання: Становить від 4,6 мільйона до 12 до 15 мільйонів доларів
У вас є модель: GPT-2
Випущений: 2019
Параметри: 1,5 мільярда
Орієнтовна вартість навчання: Близько 40 000 доларів
У вас є модель: GPT-1
Випущений: 2018
Параметри: 117 мільйонів
Орієнтовна вартість навчання: Менше 50 000 доларів
Google – один з найвпливовіших гравців у розвитку AI і має неперевершену лавку дослідників AI. Чатгпт не існував би без досліджень Google. Компанія винайшла архітектуру під назвою “Трансформер” у своєму семінарному документі “Увага – це все, що вам потрібно”, що стало основою для серії великої мови GPT OpenAI. Термін GPT-це абревіатура для “генеративного попередньо підготовленого трансформатора”.
У вас є модель: Близнюки 2 спалах
Випущений: 2024
Параметри: Не розкрито
Орієнтовна вартість навчання: Не розкрито
У вас є модель: Близнюки 1 (Ultra, Pro, Nano), 1,5
Випущений: 2023
Параметри: З 1,8 мільярда до 1,5 трлн
Орієнтовна вартість навчання: 191 мільйон доларів лише для ультра
Антропічний
Широко сприймається як найближчий суперник стартапу для OpenAI, антропік був заснований колишніми працівниками OpenAI, які були ключовими учасниками ранніх досліджень OpenAI на його великих мовних моделях. Amazon та Google – його основні інвестори. Що відрізняє антропію, – це його прихильність до розвитку безпечного ШІ, завищуючи його LLM з “конституційним ШІ”, методом, який він винайшов для підготовки моделей AI таким чином, що вирівнюється з етичними цінностями людини.
У вас є модель: Клод, 2 і 3 (Хайку, сонет, опус)
Випущений: 2023 та 2024
Параметри: Не розкрито
Орієнтовна вартість навчання: Десятки мільйонів для Sonnet 3.5
Мета
META-великий гравець у великих мовних моделях з відкритим кодом з його сімейством моделей Llama. Після того, як в 2021 р., Генеральний директор Мета Марк Цукерберг все частіше зосереджується на ШІ після успіху Чакерберга. Він взяв маршрут з відкритим кодом, щоб заохотити інших розробників використовувати та вдосконалювати свої моделі, які він може прийняти для своїх програм у соціальних мережах.
У вас є модель: Llama
Випущений: 2023
Параметри: 7 мільярдів, 13 мільярдів, 33 мільярдів та 65 мільярдів
Орієнтовна вартість навчання: 30 мільйонів доларів
У вас є модель: Llama 2
Випущений: 2023
Параметри: 7 мільярдів, 13 мільярдів та 70 мільярдів
Орієнтовна вартість навчання: Більше 20 мільйонів доларів
У вас є модель: Llama 3, 3.1, 3.2, 3.3
Випущений: 2024
Параметри: 1 мільярд до 405 мільярдів
Орієнтовна вартість навчання: Щонайменше 500 мільйонів доларів (великий стрибок від Llama 2 через великий стрибок у розмірах та складності)
Амазонка
Як піонер у хмарних сервісах через AWS, Amazon застосував більш прагматичний підхід до генеративного ШІ. Замість того, щоб конкурувати в розробці моделей фундаменту, він натомість підтримував антропіку і пропонував моделі інших компаній, таких як Клод та Лама на своїй платформі, щоб клієнти користувалися. З тих пір він вийшов із власною родиною Nova LLM.
У вас є модель: Нова (Micro, Lite, Pro, Premier)
Випущений: 2024
Параметри: Не розкрито
Орієнтовна вартість навчання: Не розкрито
Microsoft
Хоча він випустив деякі моделі AI, Microsoft не є великим гравцем у розробці моделі фонду AI. Натомість він вважає за краще пропонувати моделі OpenAI. Microsoft була ранньою підтримкою OpenAI, інвестуючи 1 мільярд доларів у 2019 році – за три роки до того, як Чатгпт привів AI на маси. З тих пір він істотно збільшив свої інвестиції до понад 13 мільярдів доларів, і тепер є ексклюзивним постачальником моделей OpenAI для клієнтів підприємства.
У вас є модель: Phi-1, 1,5, 2, 3-метри, 3-дрібні, 3-медію
Випущений: 2023 та 2024
Параметри: 1,3 мільярда до 14 мільярдів
Орієнтовна вартість навчання: Не розкрито
У вас є модель: PHI-3,5-МІНІ, 3,5-MOE
Випущений: 2024
Параметри: 3,8 мільярда для міні, 42 мільярди для МО
Орієнтовна вартість навчання: Не розкрито
Мізерний
Mistral – французький еквівалент OpenAI. Заснований колишніми дослідниками Meta та Google Deepmind, Mistral робить свій знак як розробник моделі з відкритим кодом, який стає ключовим гравцем у LLM, пропонуючи ефективні, відкриті моделі, які кидають виклик закритим системам OpenAI та Google.
У вас є модель: Mistral 7b
Випущений: 2023
Параметри: 7,3 мільярда
Орієнтовна вартість навчання: Не розкрито
У вас є модель: Mixstral 8x7b
Випущений: 2023
Параметри: 46,7 мільярда
Орієнтовна вартість навчання: Не розкрито
У вас є модель: Mistral великий 2
Випущений: 2024
Параметри: 123 мільярди
Орієнтовна вартість навчання: Не розкрито
DeepSeek
Deepseek – це китайський стартап AI, чиї недорогі витрати на розробку моделі фонду здивувались, тим більше, що він використовував повільніші чіпси Nvidia і все ще виконували нарівні з топ -моделями від OpenAI, антропіки та інших. Незважаючи на те, що претензії Deepseek зараз оскаржуються, технічні гіганти визнають, що могли навчитися з інноваційних методик китайського стартапу. DeepSeek доступний на хмарних платформах AWS, Microsoft Azure та Google Cloud.
У вас є модель: V3
Випущений: 2024
Параметри: 671 мільярд
Орієнтовна вартість навчання: 5,6 мільйона доларів (оскаржується)
У вас є модель: R1
Випущений: 2025
Параметри: 671 мільйон
Орієнтовна вартість навчання: Нерозкритий