Оцінка точності та послідовності великих мовних моделей у триафікованих публікаціях соціальних медіа для психологічних страждань

Оцінка точності та послідовності великих мовних моделей у триафікованих публікаціях соціальних медіа для психологічних страждань

Психічне здоров'я є наріжним каменем загального добробуту, оскільки воно глибоко впливає на когнітивні процеси, емоційну регуляцію та поведінкові структури (ВООЗ, 2022; Moitra et al., 2023). Раннє виявлення та своєчасний доступ до професійної підтримки широко визнані ключовими при пом'якшенні тяжкості та тривалості проблем з психічним здоров’ям та запобігання криз (McGorry and Mei, 2018). Однак системні бар'єри, включаючи обмежені ресурси, трудомісткі оцінки, суспільну стигму та бар'єри для доступу, часто затримуються у забезпеченні своєчасної підтримки (Clement et al., 2015; Macdonald et al., 2021; Huff et al., 2024). Цей розрив особливо стосується потенціалу необробленого психологічного лиха суттєво впливати на життя людей (Walker et al., 2015; De Medina-Moragas et al., 2024).

Одночасно, соціальні медіа стали всюдисущими просторами для самовираження (Statista, 2024), а люди, які відчувають психологічні страждання, все більше використовують ці платформи для поділу свого особистого досвіду та отримують підтримку (Lal et al., 2016; Ahmed et al., 2019; Bucci et al., 2019; Naslund et al., 2020). Платформи, такі як Reddit та Twitter, які пропонують анонімність та можливість швидкого розповсюдження, спонукають людей висловити широкий спектр психологічних проблем – від тривоги та депресії до суїцидальної ідеї (Sit et al., 2024). Це цифрове розкриття пропонує унікальну можливість розробити інноваційні підходи до нагляду за психічним здоров’ям, виявлення людей з ризиком та потенційно надання негайної підтримки для запобігання ескалації (Chanceller and De Choudhury, 2020; Parapar et al., 2023). Однак ручний моніторинг даних в Інтернеті залишається недоцільним, враховуючи вибухонебезпечні кількості публікацій соціальних медіа та залучених мовних складностей, що потребує розвитку більш складних підходів.

Успіхи штучного інтелекту (AI), зокрема, обробка природної мови (NLP), пропонує перспективні рішення (Graham et al., 2019; Le Glaz et al., 2021; Garg, 2023; Dakanalis et al., 2024; Montejo-Ráez et al. Виявлення здоров'я (Burdisso et al., 2019; Kim et al., 2021; Ahmed et al., 2022; Owen et al., 2024; Atmakuru et al., 2024). У межах цього пейзажу, що розвивається, попередньо мовні моделі (PLMS), особливо великі мовні моделі (LLM), стали значними досягненнями в НЛП (Liu, 2019; Naveed et al., 2024). Ці моделі керуються архітектурою трансформаторів (Vaswani et al., 2017), ці моделі представляють особливо перспективну, але все ще експериментальну проспект завдань психічного здоров'я (Devlin et al., 2018; Guo et al., 2024; Omar et al., 2024; Volkmer et al., 2024). Подальші розробки в генеративних мовних моделях (GLMS), таких як серії GPT, розроблені OpenAI (Radford et al., 2018), мають подальше революцію NLP (Brown et al., 2020; Liu et al., 2023; Zhao et al., 2023; Bommarito et al., 2023; Zhou et al., 2024). GLMS, підмножина LLMS, використовує нейронні мережі, що містять мільярди параметрів, підготовлені на величезні кількості не маркованих текстових даних, використовуючи підхід до самоконтролю навчання, здатний генерувати вміст, який є узгодженим та актуальним для ситуації (Kaylan, 2023). Деякі найсучасніші розмовні агенти, такі як Chatgpt-4o (OpenAi, 2024), Claude 3,5 Sonnet (Antropic, 2024), Gemini 1.5. Pro (Google AI, 2024) відображає ці досягнення. Їх можливості з нульовим помахом дозволяють виконати завдання без явної підготовки, пропонуючи безпрецедентну гнучкість для реальних застосувань (Kojima et al., 2023; Omar and Levkovich, 2024).

Недавні дослідження досліджували потенціал LLMS в оцінці різних психологічних характеристик користувачів. Зокрема, LLM були використані для виведення різноманітних психологічних диспозицій, включаючи статус психічного здоров’я (наприклад, DOS Santos & Paraboni, 2025; Xu et al., 2024) та особистісні риси (наприклад, Петерс і Матц, 2024), а також причетність до звикання в звиканнях, таких як ризиковане вживання алкоголю (Eg, Marengo et al., 2025). У межах цього більш широкого обсягу дослідження показали перспективні результати виявлення специфічних станів психічного здоров'я, таких як депресія, тривожність та виявлення ризику самогубств (Lamichhane et al., 2023; Yang et al., 2023; Bao et al., 2024; Ohse et al., 2024; Lan et al., 2024). У цих дослідженнях здебільшого використовували навчання з нульовим ударом з простими оперативними техніками інженерії (Priyadarshana et al., 2024). Використовуючи різні вхідні дані, такі як клінічні віньєтки, інші дослідження досліджували порівняльну ефективність LLMS та професіоналів у оцінці психічного здоров'я та завдання прогнозування результатів (Kim et al., 2024; Pugh et al., 2024, Elyoseph et al., 2024; Elyoseph and Levkovich, 2024). Однак дослідження переважно зосереджені на виявленні конкретних умов психічного здоров'я з соціальних медіа (наприклад, аналізу даних соціальних медіа, які вже проявляють конкретні симптоматичні риси), а не на оцінці глобальної актуальності втручання. Крім того, більшість існуючих моделей проходили навчання за даними англомовної мови, обмежуючи їх застосовність у різноманітних мовних та культурних контекстах.

У цьому дослідженні розглядаються ці прогалини, що досліджують можливість розмовних агентів на основі LLM для оцінки терміновості втручання, виражених у публікаціях соціальних медіа, обговорюючи широкі психологічні чи емоційні проблеми. Ми зосереджуємо наше розслідування на наборі даних користувачів від Reddit, широко використовуваної платформи соціальних медіа з приблизно 1,2 мільярда глобальних користувачів у січні 2024 року (Semrush, 2024). Анонімність Реддіта та полегшення поглиблених дискусій у конкретних громадах (Subreddits) створюють унікальне середовище для всебічних досліджень психічного здоров'я (Profers et al., 2021). Subreddits забезпечує цілеспрямоване обговорення на різні теми, включаючи значну кількість, пов’язану з психічним здоров’ям, наприклад, R/PrictHealth, R/Depression. Зокрема, ми використовуємо набір даних, що включає італійсько-мову. Наш підхід пропонує нюансове дослідження потенціалу LLMS оцінити психологічні страждання в умовах всебічного спектру емоційних переживань в італійському контексті.

Основне дослідницьке питання, яке керує цим дослідженням: наскільки точно та послідовно LLMS оцінюють терміновість втручання, необхідної для публікацій у соціальних мережах, що виражають психологічні страждання, порівняно з навченими клініцистами, і чим відрізняються результати LLMS? Для вирішення цього питання ми розробили комплексний протокол триажного протоколу, натхненний шкалою тріади психічного здоров’я (MHTS; Sands et al., 2016), клінічним інструментом, призначеним для керівництва прийняттям рішень у службах скринінгу психіатрії Великобританії. Щоб оцінити продуктивність LLM в цьому тріадному завданні, ми використаємо три найсучасніші моделі: Chatgpt-4o, Claude 3.5 Sonnet та Gemini 1.5 Pro. Порівняння продуктивності декількох LLM може забезпечити більш всебічне розуміння поточних можливостей ШІ в завданнях психічного здоров'я. Крім того, це може виявити конкретні сильні та слабкі сторони кожної моделі стосовно нюансів мови психічного здоров'я та інформувати про вибір найбільш підходящої моделі для реальних застосувань. Це дасть уявлення про доцільність та потенціал використання LLM для ефективного триаподіння та ефективного призначення психологічної підтримки.

Це дослідження застосовує дослідницький підхід для встановлення життєздатності цих моделей у новій області додатків, з потенціалом для подальших тонких налаштувань або альтернативних методологій, що залежать від перспективних попередніх висновків. Принципово, що дослідження оцінить продуктивність моделей у сценаріях нульового пошкодження, імітуючи умови в реальному світі з обмеженими маркованими даними та надаючи уявлення про неявні (“позашляхові”) знання, закодовані в цих LLMS. Прийняття нульового підходу також мотивується дефіцитом відповідних наборів даних для тонкої настройки LLM у цільовому домені, як італійською, так і іншими мовами.