Вирішення проблем з біомедичними даними та можливостями для інформування масштабного життєвого циклу даних для розширеного обміну даними, сумісності, аналізу та співпраці між зацікавленими сторонами

Вирішення проблем з біомедичними даними та можливостями для інформування масштабного життєвого циклу даних для розширеного обміну даними, сумісності, аналізу та співпраці між зацікавленими сторонами

Демографія учасників

Усі учасники жили в США, працювали в дослідженнях біомедичних відкриттів і працювали з низкою неклінічних, клінічних, візуалізаційних та геномічних даних. Віковий діапазон учасників становив 18–24 (1), 25–34 (8), 35–44 (4) та 45–54 (2). Їх досвід роботи коливався від 1–5 років (5), 5–10 років (4) та понад 10 років (6). Наше дослідження включало 5 жінок та 10 чоловіків. Більшість учасників ідентифікувались як кавказьке/європейське походження (9), за ним – Південноазіатська (3), Східна Азія (1), Африканське походження (1) та інші/змішані походження (1). Учасники працювали в різних галузях та академічних установах, починаючи від розмірів від самозайнятих позаштатних посад до компаній з понад 20 000 працівників, причому близько половини приїжджають з фармацевтичних або біотехнологічних операцій, а інша половина-з академічних медичних центрів, медичних організацій чи лікарень.

Експертиза учасника

Учасники цього дослідження включали вчені з хорошої лабораторної практики (GLP) / науковців, хороших клінічних практик (GCP), секвенування основного персоналу, вчених сухих лабораторій та клініцистів. Кожна людина мала різне розуміння та використання біомедичних даних на основі своїх знань та практичних умов. Ми підсумовуємо ці різноманітні інтерпретації в таблиці 2.

Таблиця 2 Умови досвіду та практики для учасників навчання.

Як випливає з таблиці 2, різні сектори зацікавлених сторін у процесі біомедичного виявлення мають надзвичайно різні визначення біомедичних даних залежно від ролей, які вони відіграють. Тим не менш, хоча ці чіткі підмножини та використання біомедичних даних потребують окремих процесів нормалізації та структур даних, потік даних від неклінічного виявлення до досліджень точної медицини, що вимагає об'єднання процесів даних та посиленої співпраці між усіма персонажами.

Якісні висновки

Найпоширенішими мотиваціями досліджень, про які учасники, обговорені під час інтерв'ю схвалення, (e) спростити діагностику пацієнтів та (f) виявити позитивні зміни, які можуть бути реалізовані в клінічних умовах для покращення результатів здоров'я пацієнтів.

Учасники описали різноманітні типи даних, з якими вони працювали (табл. 3), включаючи кількість білків від модельних організмів, структурованих та клінічних даних вільно тексту, дані про геномні одноклітинні та цілі геномні дані та постклінічні дані, такі як препарат Продуктивність та маркетингові показники.

Таблиця 3 Типи даних, які використовуються учасниками.

Інструменти аналізу були високозалежними (додаткова таблиця 2)-учасники використовували IBM SPSS, Redcap та Microsoft Excel для інтуїтивних обчислень, ImageJ та Prism для аналізу зображень, Gatk для первинних та вторинних геномних даних, Python (включаючи Pandas, Numpy, Scipy Пакети), R (включаючи біопровідник, а також GGPLOT2 та інші бібліотеки Tidyverse), SQL та SAS Для загальних потреб даних, NextFlow та Cromwell для трубопроводу та розробки робочого процесу, а також Anaconda та Docker для версії програмного середовища.

Виклики, пов'язані з біомедичним виявленням

Виходячи з інтерв'ю з нашого якісного дослідження, ми визначили наступні больові точки, які, як правило, перешкоджають процесу відкриття біомедичного відкриття.

Виклик 1. Визначення та закупівля відповідних даних для даного дослідницького питання

Основним напрямком інтерв'ю учасників було навігація на баланс між виявленням та вилученням відповідних даних для даного дослідницького питання. І достатні фінансові ресурси, і адекватна кількість часу, необхідні або для отримання необхідних даних, або для придбання їх із зовнішнього джерела. Зокрема, в середовищі експериментальної лабораторії («мокра лабораторія») збір даних на основі паперу може бути стомлюючим ручним процесом для більшої генерування даних, що призводить до підвищення ризику проблем якості нижче за течією при передачі даних у обчислювальні середовища. Крім того, ускладнення можуть виникати з точки зору координації та співпраці між зацікавленими сторонами та планувальниками досліджень, щоб визначити найбільш підходящі дані для дослідницького питання.

Виклик 2. Курація та перевірка закупівельних даних для аналізу нижче за течією

Забезпечення цілісності та якості закупівельних даних є ще однією головною проблемою в інтерв'ю. Больові точки, виділені під час процесу курації даних, включають час відставання під час курації даних, особливо при обробці неструктурованих даних, відсутність узгодженості у вимогах щодо контролю якості даних для організацій та біомедичних підполів, відсутності ефективних методів обміну даними, сумісні з конфіденційністю, та стомлююча ручна обробка даних при передачі даних по системах співробітникам та зацікавленим сторонам, особливо стосовно клінічних досліджень.

Виклик 3. Навчання, як застосовувати нові методи аналізу для перевірених даних та навігації непослідовних обчислювальних середовищ

Учасники, що походять з більш традиційного біологічного та медичного походження, описані перед значними кривими навчання при спробі розробити та застосувати робочі процеси обчислювального аналізу. Учасники також згадали про відсутність стандартизованих процесів для контролю версії коду та даних. Опитувані, які працюють спеціально з масштабними даними OMICS, описали, як масштаб їхніх даних може зробити аналіз та налагодження в локальних умовах нездійсненними. Учасники, які працюють з обчислювальними біологічними дослідженнями, описали, як їм потрібно використовувати як Python, так і R -середовища для їх аналізу, і це постійно переходити туди -сюди між двома платформами часто було випробуванням. Зрештою, як різноманітність середовищ кодування та програмного забезпечення, так і відсутність ефективних, зручних для користувачів методів для багатоміки інтеграції даних перешкоджає здатності учасників досліджень проводити відтворюваний аналіз, додаючи час, необхідний для аналізу даних у процесі біомедичного виявлення.

Виклик 4. Ефективно та відтворюють розподіл результатів, керованих даними

Надія опитаних у розподілі результатів їх аналізу, керованого даними, полягала в тому, що результати, отримані за допомогою відкриття, керованого даними, можуть бути використані для просування більш широких знань у цій галузі. Основні проблеми щодо розподілу результатів включали відповідність регуляторних вимог до випуску даних, забезпечення відтворюваності створених робочих процесів та результатів, перевірки біологічної інтерпретації результатів та належного передачі значущості та значення висновків, притягнутих до публічної аудиторії.

Виклик 5. Управління потоком даних по фазах життєвого циклу даних

Численні методи, описані учасниками для зберігання (додаткова таблиця 3), обмін (додаткова таблиця 4) та управління доступом (додаткова таблиця 5) підкреслюють значення потоку даних від генерації та закупівель до курації та валідації до аналізу та виявлення. Ключові больові точки, визначені щодо передач даних, які виникають серед зацікавлених сторін, включали відсутність єдності між системами управління та обміну даними, забороненими витратами на зберігання даних, труднощами, що забезпечують конфіденційність та безпеку даних, непослідовні нормативні вимоги, криві навчання для нових систем зберігання даних, Відсутність стандартизації очікувань контролю версій щодо коду та даних, вузького місця та затримки через необхідність координації між декількома зацікавленими сторонами.

Зрештою, через виклики, визначених для біомедичного відкриття, учасник інтерв'ю учасникам все перегукується з одним повідомленням: Значення співпраці та довіри навколо потоку даних. Кожен обмін даними передбачав безліч професійних зацікавлених сторін, включаючи генератори даних, науковців досліджень, кураторів даних, сторонніх постачальників, біоінформатиків, обчислювальних біологів, біологів та клініків. Інсайт та інтерпретація постійно потрібні від усіх зацікавлених сторін, щоб забезпечити точність та цілісність даних.

Рекомендації

Виходячи з наших результатів аналізу даних, ми розробили список із семи ключових рекомендацій для організацій, які прагнуть підвищити їх здатність проводити біомедичні дослідження виявлення.

Рекомендація 1. Створіть зручну для користувачів платформу для збору даних на лавці в біологічних дослідженнях

Перехід від ручного до електронного збору даних у біологічному виявленні може підвищити ефективність, покращити довіру до процесу збору даних та аналізу даних для науковців на базі лавки та покращити взаємодію між дослідженнями мокрого та сухого лабораторії.

Рекомендація 2. Встановіть єдину систему для відтворюваних біомедичних досліджень

Уніфікована система аналізу даних може забезпечити послідовні, спільні робочі процеси та призвести до нижчого бар'єру для введення для обчислювального аналізу. Прикладом групи, що реалізує таку систему, є одноклітинна спільнота, яка послідовно використовує пакети Seurat та Monocle для своїх досліджень. Крім того, наявність такої системи може допомогти зацікавленим сторонам відслідковувати введення даних та прогрес у дослідженні протягом усього трубопроводу Biomedical Discovery.

Рекомендація 3. Розробити спрощений робочий процес для налагодження та інтеграції з ноутбуків у робочі процеси для обробки великих масштабів даних 'omics

Цей робочий процес може включати опцію до контролю версії документів та зошити, а також графічний інтерфейс користувача для полегшення налагодження в хмарі.

Рекомендація 4. Вивчіть сторонні мережі постачальників даних для розробки наркотиків

В даний час надійність ІТ-інфраструктури для проекту може сильно відрізнятися залежно від відповідальної організації-більші компанії, як правило, мають більш сильні, хмарні інфраструктури для зберігання та адміністрування даних. Більше даних означає більше ускладнень з точки зору обробки даних, передачі даних та аналізу, а в таких ситуаціях для управління даними потрібні кілька експертів з різних сфер. Сторонні постачальники управління даними дуже корисні для управління цими проблемами доступу до даних, а також сприянням регуляторному процесу для фармацевтичних компаній. Краще розуміння систематизованого обміну даними, що відбувається в цілому, може значно прискорити біомедичне відкриття.

Рекомендація 5. Введіть вдосконалений, зручний для користувачів інструмент для обробки даних та прийому

Багато можливостей полягає в здатності використовувати такі методи, як генеративний ШІ для обробки даних40,41. Інтеграція обробки природної мови та машинне навчання за допомогою останніх трансформаторів або великих мовних моделей може допомогти зменшити втрату даних шляхом обробки неструктурованого тексту вільної форми. Крім того, інструменти, що включають генеративний ШІ, можуть зменшити криву навчання для більш складних методів обробки даних, надаючи прямий зворотний зв'язок щодо робочих процесів обробки даних для користувачів, які вперше стрибають в обчислювальний аналіз. Інтуїтивні, зручні для користувачів інструменти допоможуть демократизувати доступ до даних та спростити можливість їх поглинання для аналізу даних нижче.

Рекомендація 6. Поліпшення процесу спілкування між керівниками клінічних випробувань та клініцистами

Широка різниця в системах обміну даними, які використовуються в фармацевтичних компаніях та сторонніх постачальниках Тип використовується даними. Клініки та інші медичні працівники також часто не в змозі безпосередньо побачити вплив роботи, яку вони допомагають полегшити. Ми могли б скоротити час повороту для біомедичного відкриття в клінічному просторі завдяки розробці простих у користуванні платформами співпраці, що сприяють ефективній співпраці та комунікації між керівниками клінічних випробувань та клініцистами.

Рекомендація 7. Розробити інструменти та платформи для полегшення швидшого доступу до даних та більш ефективного, безпечного обміну даними

Створення захищених, демократизованих платформ даних, які дозволяють швидкому, безпечному обміну даними як всередині організації, так і за його межами, допоможе пом'якшити існуючі проблеми в потоці даних. Такий інструмент повинен включати економічно ефективне зберігання даних та параметри безпечного зв'язку та передачі даних між внутрішніми та зовнішніми сторонами.