Нещодавно запущений китайський додаток AI DeepSeek збільшився до номера в магазині Apple Appl і має … [+]
DeepSeek закликає кінець домінування великих даних та великого ШІ, а не кінця Nvidia. Його фокус на ефективності стрибки запускає гонку для невеликих моделей AI на основі худорлявих даних, споживання струнких обчислювальних ресурсів. Ймовірним впливом недорогих та вільних моделей AI Deepseek буде переорієнтація великих технологій нас від того, щоб покладатися виключно на їх конкурентну орієнтацію “більшого” та прискорене розповсюдження стартапів AI, орієнтоване на ” маленький прекрасний “.
Більшість висвітлення Deepseek та всієї реакції Уолл -стріт були зосереджені на її претензії на розробку моделі AI, яка виконує, а також ведучи моделі США за часткою витрат на навчання. Окрім того, що є «обчислювальними» та використанням відносно невеликої моделі (отримана з більших), однак, підхід DeepSeek є ефективний.
Інженери DeepSeek зібрали та куратор навчальний набір даних, що складається з “лише” 800 000 прикладів (600 000 відповідей, пов'язаних з міркуваннями), демонструючи, як перетворити будь-яку велику мовну модель на модель міркування. Джек Кларк антропіки назвав цю “найбільш недооціненою частиною цього [DeepSeek model]
випуск. ” Тоді команда Гонконгського університету з науки та технологій оголосила, що повторив модель DeepSeek лише 8000 прикладів.
Там у вас є: ми вирушаємо на перегони, зокрема, починаємо нову гонку AI – невеликі змагання з даних.
Turing Post, інформаційний бюлетень, що повідомляє про AI Developments, під назвою DeepSeek “одним із найбільш захоплюючих прикладів досліджень, орієнтованих на цікавість в AI … на відміну від багатьох інших перегонів для перемоги в орієнтирах, DeepSeek вирішив вирішити конкретні проблеми, сприяючи інноваціям, що виходить за межі звичайних метрик “.
У статті, що описує їхню останню модель AI, інженери DeepSeek виділяють одну з цих конкретних проблем: “Чи можна вдосконалити ефективність міркувань або конвергенція прискорена шляхом включення невеликої кількості високоякісних даних як холодного старту?” Проблема «Холодного старту» фіксує відсутність «досвіду», що програма навчання підкріплення має в новій ситуації без попередніх даних, щоб провести її, показуючи приклади правильних чи неправильних дій. Інженери DeepSeek описують декілька етапів, які вони розробляли для генерації, збору та тонкої настройки відповідних даних, що завершується “для кожного підказки, ми вибираємо кілька відповідей і зберігаємо лише правильні”. Винахідливість людини, а не автоматизація для очищення даних, на роботі.
Чому ця інновація є найбільш недооціненою частиною випуску DeepSeek? Чому кошти на 6 мільйонів доларів захопили всі заголовки, а не лише 800 000 прикладів, що успішно перекваліфікують великі мови? Через те, що я б назвав Законодавство Мура.
Дві домінуючі американські великі технологічні компанії США відповідали за годування та просування цієї залежності. IBM винайшов у 1950 -х роках термін “обробка даних” і став найважливішою комп'ютерною компанією, підкреслюючи обробку, продаж швидкості розрахунку, вища “продуктивність” будь -яких дій, які вживали його великі мейнфрейми. Щоразу, коли мейнфрейм задихався (часто через виклик пошуку розширення обсягів даних з того місця, де вони зберігалися), IBM сказав своїм клієнтам придбати більший мейнфрейм.
Коли епоха ПК приїхала, Intel взяла на себе посаду, сприяючи “Закону Мура”, переконаючими підприємствами (а пізніше споживачами), що більший і швидший кращий. Ця парадигма була настільки закріплена, що навіть нові стартапи з силіконової долини «цифрового походження» (наприклад, Google) прийняли це як мантру «в масштабі». Це приводить нас до сьогоднішніх “законів про масштабування”, переконання, що лише більші моделі з більшою кількістю даних, що працюють на останніх та найвищих процесорах, тобто Nvidia Chip , повністю ігноруючи ефективність даних DeepSeek та спостереження його колеги).
NVIDIA народилася, коли почала з'являтися нова ера «обробки даних» з додатковим, поступово сильним акцентом даніяк у “великих даних”. У 1993 році три співзасновники NVIDIA визначили ринок спеціалізованих мікросхем, які генеруватимуть швидше та реалістичнішу графіку для відеоігор. Але вони також вважали, що ці підрозділи обробки графіки можуть вирішити нові проблеми, які не можуть комп'ютерних мікросхем загального призначення.
Нові виклики здебільшого стосувалися зберігання, розповсюдження та використання швидко зростаючої кількості даних та оцифрування всіх типів інформації, чи то в тексті, аудіо, зображеннях чи відео. У 1986 році 99,2% усієї ємності для зберігання у світі було аналоговим, але в 2007 році 94% ємності зберігання було цифровим, повним відміною ролей. Веб здійснив цю оцифровку та вибух даних та розробку нового програмного забезпечення та алгоритмів управління даними, спеціально розроблених для використання великих даних. “Ідеальна буря” великих даних, вдосконалені алгоритми та графічні процесори призвели до повторного обміну методологією розпізнавання машинного навчання (штучні нейронні мережі) як “глибоке навчання”, а пізніше як “AI”.
Вже минулого року ми побачили деякий рух від парадигми “Більше краще”. Окрім питань практикуючих та спостерігачів щодо можливих меж «законів про масштабування», ряд стартапів представили достовірні спроби робити те, що робили великі хлопці, але з меншими моделями та/або менше даних. Навіть Nvidia хеджував свої ставки, виходячи за межі центру обробки даних, переслідуючи обчислення Edge та приводячи свої мікросхеми до настільних комп'ютерів розробників.
Увага, яка приділяється DeepSeek, з правильних і неправильних причин, ймовірно, прискорить цю тенденцію до “маленького прекрасного”. Ось до нової парадигми, яка може стати новою залежністю: менші моделі або ще більш складні моделі, які використовують невеликі дані.