Вчені з виявлення наркотиків розробляють та тестують складні гіпотези за допомогою даних та досвіду та будують робочі процеси для підтримки цього. У цій третій та останній статті доктор Рамдерпал Сінгх та Ніна Трутер узагальнюють інструменти, що використовуються в науковому робочому процесі – і включають ключові міркування.


Протягом усього робочого процесу, описаного на малюнку 1, різні інструменти можуть відігравати вирішальну роль у полегшенні кожного етапу аналізу. Від генерації гіпотез до очищення та інтерпретації даних відповідне використання інструментів може значно підвищити ефективність та точність дослідницького процесу.
1. Інструменти генерації даних та гіпотези
Такі інструменти, як Міро, що генерують діаграми, є важливими для відображення гіпотез. Міро дозволяє дослідникам створити візуальне зображення взаємозв'язку між білками, генами або шляхами, що допомагає уточнити очікувані взаємодії в рамках вивчення біологічної системи. Цей вид зображення особливо корисний на етапі генерації гіпотез, де дослідники все ще досліджують взаємозв'язок між різними біологічними компонентами.
Chatgpt корисний для мозкового штурму та генерування нових дослідницьких ідей, а також може бути використаний для вивчення можливих шляхів або взаємодії з білками, вводячи ключові терміни або гени. Цей інструмент, хоча і корисний для генерування ідей, слід обережно використовувати. Хоча він може забезпечити нові шляхи або гіпотези для дослідження, він не повинен замінювати суворий огляд літератури чи емпіричні докази.
2. Інструменти для очищення даних та описової аналітики
Excel залишається одним із найпоширеніших інструментів для очищення даних та описової аналітики у багатьох дослідженнях досліджень. Дослідники використовують Excel для таких завдань, як сортування даних, ідентифікація переживань та генерування основних ділянок. Однак для великих наборів даних Excel має свої обмеження як з точки зору масштабованості, так і складності. Такі інструменти, як R та Python, з такими бібліотеками, як Pandas для маніпулювання даними та Matplotlib для візуалізації, надають надійні рішення для обробки великих наборів даних та проведення розширених статистичних аналізів. Наприклад, бібліотеки Scipy та Statsmodels Python пропонують передові інструменти для тестування гіпотез, регресійного аналізу та інших складних статистичних процедур, які перевершують можливості Excel. Chatgpt та claude.ai є корисними інструментами для розширення можливостей вчених без досвіду кодування, надаючи власний написаний код для конкретних аналізів та виконання цього коду. Знову ж таки, це не є заміною для суворих аналізів науковцями даних; Однак, де вчені дані недоступні, це дозволяє вивчити дані, що перевищують можливості Excel.
Ще одним потужним інструментом робочого процесу є база даних Pathway Kegg, яка допомагає дослідникам відобразити, як взаємодіють білки та гени всередині відомих біологічних шляхів. Це особливо корисно під час фази тестування гіпотез, оскільки дозволяє дослідникам візуалізувати, як їхні інтереси вписуються в більш широкі біологічні процеси. База даних про шляху Kegg надає розуміння метаболічних шляхів, генетичних взаємодій та механізмів захворювання, які мають вирішальне значення для розуміння того, як набір даних може інформувати наше розуміння складних біологічних явищ, таких як трансдукція сигналу, проліферація клітин або імунні реакції.
Бази даних генів онтології, такі як струнні та реактивні,-це додаткові інструменти, які можуть бути використані для розуміння взаємодій білка-білка та їх участі в клітинних процесах. Ці інструменти є важливими для інтерпретації результатів аналізу даних, особливо коли набір даних виявляє несподівані або нові взаємодії між білками, які потребують подальшого дослідження.
3. Інструменти для відображення мережі та взаємодії
У міру того, як біологічні набори даних зростають у складності, інструменти на основі графіків стали важливими для візуалізації та аналізу взаємодій білка-білок та генних мереж. Наприклад, Cytoscape – це широко використовуваний програмний інструмент для візуалізації молекулярних мереж взаємодії та інтеграції їх з профілями експресії генів та іншими даними. У дослідженні, орієнтованому на виявлення наркотиків, розуміння взаємодії між множинними білками або генами має вирішальне значення для виявлення потенційних цілей наркотиків або розуміння механізмів стійкості до лікарських засобів.
Підходи на базі мережі також стають все більш поширеними, оскільки дослідники мають на меті представляти складні біологічні дані більш інтуїтивно зрозумілими способами. Візуалізуючи дані як мережі чи графіки, вчені можуть легше ідентифікувати вузли, вузькі місця або ключові гравці в біологічних процесах, що дозволяє їм зосередити свої зусилля на найважливіших компонентах системи.
4. Інструменти літератури та курації даних
Курація даних є ключовою частиною будь -якого робочого процесу, особливо при роботі з великими наборами даних або інтеграції даних з декількох джерел. Такі інструменти, як GeneCards, корисні для отримання детальної інформації про гени та їх функції. GeneCards пропонує всебічну інформацію, пов'язану з генами, такі як шляхи, взаємодія та захворювання, пов'язані з кожним геном. Ця інформація є неоціненною при створенні гіпотез або перевірки висновків, оскільки вона забезпечує глибше розуміння того, як певний ген або білок вписується в більш широкий біологічний контекст.
Окрім генекартів, такі інструменти, як Mendeley та Zotero, корисні для управління науково -дослідними роботами та посиланнями, особливо для дослідників, які покладаються на огляди літератури для підтримки їх гіпотез та аналізів. Правильне управління довідками забезпечує ефективне відстеження джерел та підтримує цілісність роботи.
5. AI та інструменти машинного навчання
У міру того, як набори даних біологічних досліджень зростають у розмірах та складності, використання інструментів AI та машинного навчання стає більш критичним. Chatgpt може функціонувати як інструмент для мозку для генерування гіпотез або вивчення можливих шляхів, і хоча цей інструмент все ще є відносно новим у дослідницькій спільноті, він представляє зростаючий перехрестя між ШІ та виявленням наркотиків. Chatgpt може допомогти, узагальнюючи літературу, пропонуючи нові кути розслідування або навіть допомагаючи вивчити великі набори даних способами, які були б занадто трудомісткими для огляду вручну.
Інші інструменти машинного навчання, такі як TensorFlow або Pytorch, можуть бути використані для аналізу великих наборів даних та визначення моделей, які можуть бути не відразу очевидними традиційними методами. Ці інструменти дозволяють дослідникам будувати прогнозні моделі, класифікувати дані або визначати нові асоціації між змінними. У виявленні наркотиків моделі машинного навчання використовувались для прогнозування ефективності наркотиків, оптимізації складних структур і навіть імітації біологічних систем.


Малюнок 1: Ілюстрація продемонструвати робочий процес високого рівня для раннього виявлення наркотиків.
Підсумок інструментів та баз даних, що використовуються в робочому процесі:
- База даних Kegg Pathway – база даних шляху KEGG (Kyoto Encyclopedia генів та геномів) надає інформацію про молекулярну взаємодію та реакційні мережі для різних біологічних шляхів. https://www.kegg.jp/kegg/pathway.html
- База даних рядків-база даних відомих та прогнозованих взаємодій білок-білок, інтегруючи як фізичні, так і функціональні асоціації. https://string-db.org
- Reactome-база даних про куратор, що куратор, яка забезпечує розуміння біологічних процесів та молекулярних взаємодій. https://reactome.org
- GeneCards – всебічна база даних, яка надає детальну інформацію про всі відомі та прогнозовані гени людини, включаючи функції, шляхи та пов'язані з цим захворювання. https://www.genecards.org
- Cytoscape – програмна платформа для візуалізації молекулярних мереж взаємодії та інтеграції цих мереж з профілями експресії генів та іншими даними. https://cytoscape.org
- Менделі – керівник довідника та академічна соціальна мережа, яка допомагає дослідникам організовувати науково -дослідні роботи, співпрацювати в Інтернеті та відкривати останні наукові дослідження. https://www.mendeley.com
- Zotero-безкоштовний, простий у використанні інструмент, який допомагає дослідникам збирати, організовувати, цитувати та ділитися дослідженнями. https://www.zotero.org
- TensorFlow-платформа з відкритим кодом для машинного навчання, яка зазвичай використовується для глибоких навчальних додатків та великого аналізу наборів даних. https://www.tensorflow.org
- Pytorch-бібліотека машинного навчання з відкритим кодом на основі бібліотеки факелів, яка використовується для таких додатків, як комп'ютерне бачення та обробка природної мови. https://pytorch.org
Про автора
Д -р Рамдерпал Сінгх
Д-р Рамдерпал Сінгх-визнаний прозорливий у впровадженні ШІ в галузі технологій та науково-наукових галузей. Він має понад 30 років глобального досвіду провідних та консультувальних команд, допомагаючи компаніям на ранніх стадіях досягти проривів завдяки ефективному використанню обчислювального моделювання. В даний час Рамдерпал є глобальним керівником AI та Genai Practice у 20/15 Visioneers. Він також заснував і очолює спільноту з відкритим кодом Hitchhikersai.org. Він також є співзасновником Incubate Bio-Techbio, який допомагає компаніям наук про життя прискорити свої дослідження та знизити свої витрати на лабораторію через у силіконі моделювання.
Рамдерпал має великий досвід побудови бізнесу як у Європі, так і в США. Як керівник бізнесу в IBM Research в Нью-Йорку, д-р Сінгх очолював ринок для IBM Watson Genomics Analytics. Він також був віце -президентом і керівником відділу мікробіомів в Eagle Genomics Ltd в Кембриджі. Рамдерпал здобув ступінь доктора наук за напівпровідниковим моделюванням у 1997 році. Він опублікував кілька робіт та двох книг і дванадцять видали патенти. У 2003 році він був обраний EE Times одним із 13 найвпливовіших людей у напівпровідниковій галузі.
Докладніше: http://raminderpalsingh.com; http://20visioneers15.com; http://hitchhikersai.org; http://incubate.bio
Ніна Трутер
Ніна Трутер – вчений -трансляціонер з глибоким фокусом на розумінні механізмів дії в розробці наркотиків та використовує різні набори даних у біотехнології. Базуючись у Південній Африці, вона широко співпрацювала з міжнародними біотехнологічними компаніями, спеціалізуючись на терапевтичному розвитку для захворювань, пов'язаних з віком, та складними станами, такими як гліобластома та аутосомно домінуюча полікістозна хвороба нирок (ADPKD).
Її нещодавня робота включає консультації з біотехнологічних фірм, що базуються у Великобританії, та провідні ініціативи в Hitchhikersai.org для просування перекладу AI та наукових даних у практичні біотехнологічні рішення, такі як визначення можливостей комбінованої терапії та підвищення відбору пацієнтів. У своїй роботі вона використовує системний підхід для інтеграції розуміння з різних наборів даних по всій in vitro, in vivo і людські моделі для відповіді на критичні наукові питання та перекладають біологічні механізми на моделі, які використовуються вдосконаленими аналітичними методами, такими як перламентський причинний висновок.
Докладніше: https://njtruter.wixsite.com/ninatruter