Наступний рубіж продуктивності досліджень і розробок

Наступний рубіж продуктивності досліджень і розробок

Алекс Девересон, Кріс Анагностопулос, Девід Шампань, Хьюг Лавандьє, Лівен ван дер Векен, Томас Девенінс та Ульріх Вейхе
з Алексом Пелуффо, Бенджі Ліном, Дженніфер Хоу та Марен Екхофф

Минуло два роки відтоді, як поява генеративного штучного інтелекту (generative AI) перевернула очікування щодо того, що можливо в бізнесі, і організації починають усвідомлювати його справжню цінність, використовуючи generative AI, наприклад, для підвищення продуктивності розробників програмного забезпечення або ефективність маркетингових кампаній і операцій з обслуговування клієнтів. Ці перші результати узгоджуються з дослідженнями McKinsey, які показали, що 75 відсотків вартості сценаріїв використання штучного інтелекту покоління буде надходити з чотирьох сфер: маркетинг і продажі, розробка програмного забезпечення, робота з клієнтами та дослідження та розробки.

З цих чотирьох науково-дослідні розробки залишаються найменш цінованими і, можливо, найбільш переконливими. Це тому, що окрім підвищення продуктивності та ефективності лабораторних дослідників, останні розробки в галузі штучного інтелекту мають потенціал трансформувати весь процес досліджень і розробок, істотно прискорюючи швидкість метаболізму, з якою досліджуються ідеї, і навіть створюючи абсолютно нові гіпотези для дослідження. GPT-4, який підтримує ChatGPT, та інші великі мовні моделі (LLM) уже використовують досягнення в обробці людської мови для досягнення прогресу в наукових дисциплінах. Наприклад, останній препринт Microsoft демонструє потужний потенціал GPT-4 для аналізу та синтезу складної наукової інформації в таких галузях, як біологія, відкриття ліків, обчислювальна хімія та дизайн матеріалів.1 Оскільки так багато наукової інформації базується на тексті, LLM успішно використовуються в різних контекстах, наприклад, для виявлення закономірностей експресії ДНК у ракових клітинах і для вирішення інженерних проблем в аерокосмічному дизайні.2

Але для реалізації повного потенціалу ШІ для наукових відкриттів і розробок потрібен інший підхід до ШІ — підхід, який ми визначили як «науковий ШІ».

Що таке науковий ШІ?

Як випливає з назви, Scientific AI використовує AI для створення та перевірки наукових гіпотез. Він включає в себе інструменти та практики штучного інтелекту, розроблені спеціально для наукових застосувань, наприклад методи, які використовують великі обсяги наукових даних, особливо необроблені об’єктивні вимірювання, для забезпечення міждисциплінарних наукових висновків. На відміну від інструментів штучного інтелекту, які використовуються для підвищення ефективності та продуктивності операцій (інструментів, які, швидше за все, стануть товарними), науковий штучний інтелект використовує власні дані та досвід, маючи потенціал для підвищення інновацій і стати справжньою конкурентоспроможністю.

Ми віримо, що науковий штучний інтелект має потенціал для вирішення деяких найскладніших, давніх проблем, з якими стикаються дослідники в широких галузях науки, таких як хімія, біологія, матеріали та фізика, допомагаючи просувати інновації в усіх галузях, де наука має значення. Це можна зробити кількома важливими способами.

Робота через силоси

Наукові відкриття довгий час спиралися на окремі підходи з даними та методами, розробленими для вирішення дуже специфічних проблем. Вісім років тому в статті, яка закликала до прийняття більш міждисциплінарних підходів, Біотехнологія природи нарікав: «Дослідницькі силоси продовжують перешкоджати біологічним дослідженням».3 Зовсім недавно стаття 2023 року в Синтез природи стверджував, що «відокремлений характер звичайних дослідницьких зусиль щодо відкриття нових матеріалів і молекул» залишається проблемою у відкритті хімікатів і матеріалів.4

Такі наукові сфери, як аналіз генома та фізичне моделювання, так само досягли плато інновацій, частково через складність синтезу кількісної інформації, отриманої за допомогою методів моделювання, які чітко адаптовані до окремих типів даних. Науковий штучний інтелект відкриває вихід із глухого кута, створюючи підходи, які потенційно можуть розірвати розбіжності в наукових відкриттях і розробці продуктів. Науковий штучний інтелект може використовувати прогрес у базових моделях, які є мультимодальними за своєю природою та узагальнювати в різних областях даних або навіть галузях, наприклад, використовувати базові моделі хімії для покращення відкриття ліків і полімерів, а також використовувати досягнення в ширшій екосистемі штучного інтелекту, як-от генерація синтетичних даних і причинно-наслідкове машинне навчання.

Інтегруючи різноманітний масив даних, основні моделі можуть екстраполювати за межі своїх суворих периметрів навчання, щоб отримати чисту нову ідею. Наприклад, моделі, спочатку розроблені для відкриття ліків, які поєднують молекулярну інформацію та зображення, можна перепрофілювати для синтезу спеціальних хімікатів; моделі, розроблені для комп’ютерного зору в рослинах, можна пристосувати до виявлення раку в клітинах людини; або моделі, розроблені для прогнозування згортання білків антитіл, можуть бути використані для розробки ферментів харчових продуктів.

Вихід за межі тексту та мови

Багато з найпопулярніших і найпотужніших сучасних програм штучного інтелекту та штучного інтелекту покоління засновані на тексті, але ядро ​​критичних даних у дослідженнях і розробках базується не на тексті, а натомість дуже різнорідне, охоплюючи зображення, молекулярні структури, динамічні системи, показники активності та статистичні дані. відповіді. Це ядро ​​важливих даних отримано з різноманітних джерел, таких як чашки Петрі, препарати, клінічні випробування, мікроскопи, радари та інші наукові прилади. Оскільки більшість промислових досліджень і розробок покладаються на ці модальності даних для відкриття нових продуктів, потенціал впливу нових базових моделей на основі таких джерел даних дуже високий.

Наприклад, білкова інженерія є основною рушійною силою досліджень і розробок у кількох основних галузях, таких як фармацевтика (наприклад, терапевтичні антитіла), медична діагностика (такі як матриці афінності на основі антитіл), промислова хімія (такі як технічні ферменти для миючих засобів) і відновлювані джерела енергії (такі як ферменти, що перетравлюють пластик). Усі ці галузі починають отримувати вигоду від революційних основ білкових моделей, таких як RoseTTAFold і AlphaFold 3. (Провідні дослідники, що стоять за цими технологіями, отримали Нобелівську премію з хімії 2024 року та залучили понад 1 мільярд доларів у рамках фінансування серії A, щоб продовжити переклад ці технології для промисловості.5 ) Так само моделі фундаменту, такі як Uni-Mol, FM4M і SPMM6— які вивчають властивості хімічних структур — дозволяють дослідникам передбачати природу малих хімічних молекул і навіть генерувати раніше невідомі.

Робота в ітераційних циклах

Моделі штучного інтелекту пропонують проекти, лабораторні дослідники та інженери перевіряють ці пропозиції, а отримані дані включаються в штучний інтелект для отримання нових ідей. Цей процес створення, тестування та вдосконалення стимулює інновації через покращення даних і постійне навчання. У світі, де все більше моделей ШІ стають відкритими, а таланти можуть вільно переходити від одного гравця до іншого, шлях до диференціації залежить від даних і навчання цих моделей за допомогою циклів активного навчання. Доступ до даних є основною конкурентною перевагою, яка може перетворитися на цінність, лише якщо дані правильно інтегровані та можуть перетікати туди-сюди від ШІ до лабораторій. Ми вже бачимо, як інвестори в науковий штучний інтелект віддають перевагу компаніям із циклами активного навчання, які створюють власну ідею шляхом тонкого налаштування конкретних наборів даних.

І ці ітераційні цикли стануть ще міцнішими з появою агентного штучного інтелекту, який дозволить дослідникам спілкуватися та ділитися досвідом із керованими штучним інтелектом агентами знань, навченими на широкій базі наукових знань та історичних даних, що охоплюють різні галузі. Говорячи більш розмовною мовою, це світ, у якому супутник ШІ може сказати дослідникам: «Не запускайте цей експеримент; це було зроблено раніше і не вдалося» або «Остання особа, яка проводила цей аналіз, досягла найкращого прогресу на цьому наступному етапі».

Важливо розуміти, що велика кількість нових доказів, які, ймовірно, буде створено науковим штучним інтелектом, матиме різний рівень достовірності залежно від обсягу даних, кількості циклів навчання та ступеня зовнішньої перевірки. Іншими словами, не всі докази однакові. Щоб отримати максимальну віддачу від наукового штучного інтелекту, організаціям потрібно буде створити бізнес-процеси, здатні використовувати та, за потреби, додатково перевіряти ідеї різного ступеня достовірності.

Початок роботи з науковим ШІ

Багато галузей — від фармацевтики та сільського господарства до автомобілебудування, аеронавтики та енергетики — отримають значну користь від розгортання наукового ШІ. Наш аналіз показує, що ця цінність буде надходити з двох джерел: прискорення продуктивності завдяки швидкості та більша ймовірність успіху (швидше обертання колес), одночасно створюючи нові рішення та домени (створюючи абсолютно нові колеса). Тим не менш, оскільки науковий ШІ глибоко впливає на весь процес досліджень і розробок, для успішного впровадження в масштабах йому потрібен набір будівельних блоків трансформації. Структура McKinsey, яка може забезпечити успішну аналітичну трансформацію, включає шість ключових параметрів, які необхідно враховувати: план, пов’язаний з науковою та бізнес-цінністю, цифрові та аналітичні можливості, архітектура даних, технічна архітектура, талант і гнучка операційна модель, а також впровадження та масштабування план, який детально описує дорожню карту від перших суперкористувачів до широкого впровадження. Розглядаючи всі шість вимірів протягом процесу наукових відкриттів, організації можуть забезпечити масштабне розгортання наукового ШІ з прямим впливом на стратегічні пріоритети.

Навіть з урахуванням цих чинників організації повинні бути обережними, намагаючись робити занадто багато одночасно. Замість того, щоб запускати низку доказів концепції, компаніям краще розгортати меншу кількість ініціатив (навіть лише одну або дві), які можна пов’язати зі стратегічними та бізнес-цілями та служити основою для майбутніх ініціатив. Стратегія сприяння прийняттю в довгостроковій перспективі також є важливою. Науковий штучний інтелект може бути потужним, але це також нова здатність, для реалізації якої може знадобитися деякий час. Надмірні обіцянки на ранніх етапах можуть призвести до розчарування та скепсису серед користувачів, що підриває довгостроковий потенціал технології. Але завдяки належній структурі та надійній загальноорганізаційній стратегії Scientific AI віщує нову еру творчості, інновацій та трансформації.

Алекс Девересон є партнером лондонського офісу McKinsey, де Девід Шампань є старшим партнером і Марен Екхофф є видатним науковцем з даних; Кріс Анагностопулос є партнером офісу в Афінах; Юг Лавандьє є старшим партнером паризького офісу, де Алекс Пелуффо є консультантом; Лівен ван дер Векен є старшим партнером офісу в Ліоні; Томас Девенінс є партнером женевського офісу; Ульріх Вейхе є старшим партнером у Франкфуртському офісі; і Бенджі Лін є асоційованим партнером в бостонському офісі, де Дженніфер Хоу є старшим керівником активу.

1 Microsoft Research AI4Science і Microsoft Azure Quantum, «Вплив великих мовних моделей на наукові відкриття: попереднє дослідження з використанням GPT-4», arXiv, листопад 2023 р.
2 Wenpin Hou і Zhicheng Ji, «Оцінка GPT-4 для анотації типу клітини в одноклітинному аналізі RNA-seq», Природні методи25 березня 2024 р., том 21; Метью Дж. Ха та Крістофер С. Пірсон, Використання ChatGPT для розробки інструментів інженерного проектування та аналізудокумент зустрічі форуму AIAA SCITECH 2024, AIAA 2024-0914, січень 2024 р.
3 «Так довго до силосів», Біотехнологія природи2016, том 34.
4 Мілад Аболхасані та Євгенія Кумачева, «Розвиток автономних лабораторій у хімії та матеріалознавстві», Синтез природи2023, том 2.
5 «Девід Бейкер: факти», Nobel Prize Outreach, доступ 8 січня 2025 р.; Анналі Армстронг, «Нова потужна компанія Xaira, що займається відкриттям ліків зі штучним інтелектом, отримала 1 мільярд доларів США», Fierce Biotech, 24 квітня 2024 р.
6 Qiankun Ding та ін., «Uni-Mol: універсальна структура навчання 3D молекулярного представлення», ChemRxiv, 6 березня 2023 р.; «Вступ до базових моделей IBM для матеріалів (FM4M)», GitHub, доступ 8 січня 2025 р.; Jinho Chang і Jong Chul Ye, «Двонаправлена ​​генерація структури та властивостей через єдину модель молекулярної основи», Комунікації природи2024, том 15.