Розробка методів вибірки рідкісних подій можна простежити ще до початку 1950-х років, в першу чергу мотивованою необхідністю вирішувати складні проблеми в ядерній фізиці, особливо проблему екранування нейронів, яка була вирішальною для розробки ядерних установок [19]. Пізніше дослідники вирішили завдання надзвичайно рідкісних подій за допомогою випадкового відбору проб Монте -Карло [20]. Важливість методів відбору проб, ще одна ключова методика моделювання рідкісної події, також з'явилася в цей період, встановивши підґрунтя для еволюції методів вибірки рідкісної події, які продовжують вдосконалюватися та застосовуватись у різних галузях [21]. Наприклад, у фізиці пошук темної речовини передбачає виявлення надзвичайно рідкісної взаємодії частинок [22]. У науках про Землі були розроблені методи для аналізу надзвичайно рідкісних стихійних лих зі швидкістю виникнення 1% або менше [23]. У телекомунікаційному секторі дослідники зосереджувались на виявленні та аналізі аномалій рідкісної мережі [24]. У політології підходи до дослідження застосовуються для аналізу рідкісних подій, таких як успішні перевороти або мирне розірвання країн [7, 25]. В економіці моделювання на основі агентів, що використовується для імітації складних фінансових систем та визначення умов, які можуть призвести до рідкісних збоїв на ринку [26]. У галузі охорони здоров'я дослідників використовуються методи геномного секвенування для виявлення генетичних маркерів, пов'язаних з рідкісними розладами або байєсівськими ієрархальними моделями, застосованими для аналізу невеликих розмірів вибірки, типових при рідкісних захворюваннях [27, 28]. Тут ми застосували методику логістичної регресії для рідкісних частот подій серед великих розмірів вибірки.
Завдяки структурованій системі введення даних, що використовується Tricare, набір даних, використаний у цьому дослідженні, мав мінімальні відсутні дані. У всіх змінних, що входять до аналізу, менше 1% точок даних відсутні. Ця надзвичайно низька швидкість відсутності не вимагала використання передових методів імпутації або окремого повного аналізу випадків. Повнота даних Tricare сприяє надійності висновків і мінімізує потенційну упередженість від відсутньої інформації.
Незважаючи на те, що традиційне правило для логістичної регресії свідчить про 10 – 20 подій на змінну, останні дослідження показали, що ця настанова може бути розслаблена за певних обставин [29]. При роботі з рідкісними подіями загальний розмір вибірки стає більш критичним, ніж кількість подій. Великий розмір вибірки 2720 надає значну інформацію навіть лише з 14 подіями. Наведений тут емпіричний приклад ілюструє, чому були розроблені спеціалізовані методи для рідкісних подій логістичної регресії. Кілька методів виправлення було застосовано до рідкісного лікування ВР за допомогою набору даних про стан здоров'я. Як і очікувалося, результати дали, що стандартна логістична регресія значно недооцінила ймовірності подій. Занесудливість у цьому дослідженні становила від 11% до 102% за допомогою попереднього методу корекції та від 15% до 106% за допомогою методу корекції зважування. Наприклад, у цьому дослідженні стандартна регресія логістики передбачила, що пацієнти чоловічої статі від 18 до 64 років з меншою кількістю супутніх захворювань мають 0,1% ймовірності прийому лікування IVIG; Однак фактична ймовірність була більш ніж подвійною відповідно до попередньої корекції та корекції зважування. Ця невідповідність може спричинити велику помилку і, зрештою, неефективні рішення.
Крім того, це дослідження показало, що випадковий відбір зразків не події значно упередив результати. Було встановлено, що ймовірності в 10 разів більше, ніж виправлені ймовірності та в 20 разів більші, ніж ймовірності, обчислені стандартною логістичною регресією. Ці результати підтримують висновки Кінга та Зенга, які вказували на те, що другий, важливіший загальний в аналізі рідкісних подій полягає в тому, як збираються дані [7]. Знижений розмір вибірки в цьому дослідженні продемонстрував найбільше зміщення, підтримуючи ідею, що збір даних може значно впливати на результати.
Інші методи, такі як метааналіз, були запропоновані для корекції рідкісних заходів. Однак мета-аналізи бінарних даних можуть бути проблематичними, коли частка подій низька [30, 31]. Мета-аналізи бінарних даних часто виконуються за допомогою стандартної моделі з зворотним варіантами фіксованих ефектів, заснованої на методах з обмеженим рівнем великого вибірки, або методами фіксованих ефектів, заснованих на точній теорії розподілу, таких як модель Mantel-Haenszel (MH) або моделі стандартної дієтичної ефекти (DL) Dersimonian-Laird (DL) [31]. Ці методи, засновані в основному на нормальному наближенні на велику вибірку (особливо зворотна дисперсія) [31,32,33]не вистачає сили досліджувати захворюваність на рідкісні події. Таким чином, їх статистичні властивості для оцінки ефектів лікування часто оцінюються як неоптимальні або через упереджені результати, невідповідно широкі довірчі інтервали, або незначну статистичну силу для виявлення справжніх відмінностей.
Настанови Cochrane (версія 6.1, 2020) рекомендують використовувати методи, в основному доступні в менеджері огляду (Revman), програмного забезпечення для вільного доступу, розробленого Nordic Cochrane Center [31, 33]. Його настанова говорить про те, що за показниками подій менше 1%коефіцієнт шансів PETO повинен бути використаний [31]. За обставин, коли рівень подій перевищує 1%, а метааналіз включає багато досліджень з незбалансованими групами лікування, коефіцієнт шансів MH слід використовувати [31, 34]. Однак деякі з цих методів, зокрема, MH без корекції безперервності, логістична регресія та точні методи, недоступні в Revman. По-друге, мета-аналітики часто повинні повертатися від зважування зворотного дисперсії до моделі DL випадкових ефектів, щоб зменшити зміщення в оцінці, коли присутня неоднорідність.
Зовсім недавно були запропоновані нові методи, включаючи максимальну ймовірність, ймовірність профілю та обмежену максимальну ймовірність або непараметричні методи «перестановки», були запропоновані для покращення оцінки дисперсії (τ) [31, 35, 36]. Непараметрична завантаження оцінювача DL була показана кращою виконавцем у невеликих метааналізах, які були помилково вважалися однорідними за стандартною моделлю DL [31]. Незважаючи на те, що ця непараметрична завантаження моделі DL зараз розширена як для моделей MH, так і для PETO, мало що відомо про результати цих методів у метааналізах, що включають рідкісні події, коли неоднорідність є проблемою.
Обмеження
У цьому дослідженні використовуються дані Міністерства оборонної системи трикаре, яка в першу чергу обслуговує військових, ветеранів та їхніх сімей. Ми визнаємо, що це населення може мати унікальні характеристики, які можуть вплинути на узагальнення результатів для більш широкого населення США [37]. Бенефіціари Tricare можуть мати різні схеми доступу до охорони здоров'я, профілі коморбідності та переваги лікування порівняно з цивільними особами [38]. Наприклад, персонал з активним службою може мати кращий загальний стан здоров'я через вимоги до фізичної підготовки, тоді як ветерани можуть мати більш високі показники певних умов, пов'язаних з військовою службою [39]. Крім того, структурована система охорони здоров’я Tricare та поліси покриття можуть впливати [39].
Це дослідження також має кілька обмежень, пов'язаних із використанням адміністративних наборів даних та ретроспективним аналізом. Хоча ретроспективні дослідження є важливим інструментом для вивчення рідкісних захворювань, проявів та результатів, їх дизайн підлягає обмеженням [40]. Оскільки аналіз був проведений на огляді даних про претензії, які спочатку не були розроблені для досліджень, деяка інформація неодмінно не вистачає. Вибір, відкликання та втрата подальших упереджень можуть вплинути на те, наскільки репрезентативними є дані для рідкісної події, що цікавить.
Використання адміністративної бази даних має багато сильних сторін, оскільки вона включає великий розмір вибірки/базової вибірки, що забезпечує встановлений знаменник [41]. Дані включають демографічні показники пацієнтів, клінічні характеристики, детальне використання охорони здоров'я та інформацію про витрати, що дозволяє ідентифікувати та порівняння методів лікування та результатів у населеннях, що входять до даних [41]. Однак деякі обмеження вимагають згадки. По-перше, як і у більшості джерел даних на основі претензій, між надходженням послуг існує часовий відставання та коли файли стають доступними для досліджень (середнім, 2–3 роки) [41]. Таким чином, дані можуть не бути узагальненими для всього населення, оскільки деяка інформація може бути пропущена при обробці чи відшкодуванні. Крім того, не всі дані про здоров'я зафіксовані у претензіях. Незважаючи на те, що діагнози включені, така інформація, як поведінка, пов'язана з здоров’ям, антропоморфні дані та використання без рецептів, які можуть бути знайдені в медичних записах, не є фіксованими у претензіях. Крім того, претензії, за які послуги були рекомендовані, але ще не отримані, не будуть зафіксовані в наборі даних. Крім того, дані про адміністративні претензії не мають інформації про процес прийняття рішень (наприклад, прийняли рішення, як і чому прийняті рішення, співвідношення між запланованим та отриманим лікування [41].
Ми визнаємо потенціал для надмірного пристосування в нашій моделі, враховуючи обмежену кількість випадків рідкісної події (14 пацієнтів з ІВІГ). Щоб вирішити цю проблему, ми включили довіру до регресії (див. Таблицю 2). Крім того, ми визнаємо, що невеликий розмір вибірки може обмежити узагальненість наших результатів. У майбутніх аналізах можна планувати вивчити методи регуляризації, такі як регресія хребта або Лассо, щоб пом'якшити перевитрат та покращити продуктивність моделі. Ці методи можуть допомогти зменшити складність моделі та потенційно підвищити надійність наших прогнозів, особливо при роботі з високовимірними даними або обмеженими розмірами вибірки.