На сьогоднішній день системи візуального спостереження відіграють важливу роль у правоохоронних органах та розумній безпеці міста. Розумне спостереження набуло великого інтересу до сфери комп'ютерного зору, вводячи штучний інтелект речей (AIOT). Це поле, що виникає, інтегрує штучний інтелект (AI) з IoT для створення мережі датчиків, яка може обробляти, аналізувати та передавати дані ефективно на декількох рівнях, таких як туман, хмара та край. Крім того, традиційні моделі CNN є обчислювально дорогими і не добре підходять для розгортання на пристроях IoT, обмежених ресурсами. Нещодавно легкі моделі привернули увагу до класифікації та виявлення в режимі реального часу у відео-аналізі, особливо в розпізнаванні ідентичності в різних умовах освітлення (Kumar and Bansal, 2023, Kumar and Misra, 2024, Kumar and Micra, 2025). Аналогічно, останні досягнення в виявленні демонструють обіцянку для швидкого та точного виявлення та локалізації об'єктів у обмежених умовах (Sugashini та Balakrishnan, 2024, Hui et al., 2024). Спираючись на ці розробки, ми приймаємо легку модель CNN для миттєвого виявлення аномалії на краю. Це дає можливість краю пристроїв ефективно обробляти інформацію. Для більш обчислювального інтенсивного завдання розпізнавання аномалії ми використовуємо хмарні ресурси, де доступні більш високі можливості обробки. Ця конструкція спільної роботи Edge-Cloud забезпечує оптимальний баланс між продуктивністю та обчислювальною складністю в середовищі спостереження на основі AIOT. На відміну від цього, звичайні системи спостереження передають відео послідовності до контрольних залів для аналізу, де уповноважена особа вручну визначає подію, що цікавить (Muhammad et al., 2021). Однак ідентифікація вручну вимагає високого ступеня уважності, коли людські оператори не можуть бути настороженими та активними протягом тривалого періоду, і є трудомістким та схильним до помилок. Тому дослідники запропонували кілька методів, що базуються на штучному інтелекті для ефективного виявлення аномалії та зменшити зусилля, докладені ручною ідентифікацією (Wang et al., 2023, Ullah et al., 2023d, Paulraj та Vairavasundaram, 2025). Наприклад, алгоритми бінарної класифікації для виявлення аномалії (AD) використовуються в різних областях, таких як виявлення насильства та дорожніх трафіків (Yao and Hu, 2023, Adewopo et al., 2023). Однак можливості цих систем обмежуються бінарними класифікаціями, такими як насильство та ненасильство; Тому ці системи обмежуються виявленням інших поширених випадків, обмежуючи їх практичне застосування. Крім того, використання цих стратегій у реальних ситуаціях обмежене через складний та різноманітний характер даних спостереження, що ускладнює виявлення всіх ненормальних явищ. Інші виклики, такі як тимчасова залежність, галасливі дані та обмежені навчальні зразки, роблять складним для моделі виявити аномалії у відео. Одним із можливих методів для присутнього аномального виявлення подій є слабко наглядова система навчання, де є попередні знання про минулі події. Однак ця стратегія збільшує ризик помилок через швидкі зміни аномальних та нормальних подій. Більше того, дослідники представили передові рішення для цих викликів, таких як багатомасштабна залишкова мережа з механізмами уваги (Sun et al., 2025a), доменна змагальна підготовка з псевдо-мітками (Sun et al., 2025b) та просторово-часовим моделюванням через адаптивне ітеративне навчання (Peng et al., 2024). Ці методи обмежені одноетапними архітектурою, тоді як ми стверджуємо, що запропонована наша двоступенева мережа спеціально розроблена для успіху в виявленні та розпізнаванні відео-аномалії в середовищах AIOT.
Для точного виявлення AD різні дослідники використовували різні статистичні методи, такі як машинне навчання та методи DL, для виявлення аномальної активності (LV et al., 2023, Wu et al., 2022). Рідкі підходи кодування дали багатообіцяючі результати в AD (Li et al., 2020b, Wu et al., 2020, Singh et al., 2024) через використання рідкого представлення та навчання словника. Однак використання словників, які навчаються виключно на нормальних подіях для виявлення ненормальної активності, є недостатнім і має високі помилкові швидкості тривоги. Більше того, завдання виявлення аномальних подій у відео даних безпеки є надзвичайно складним з кількох причин, включаючи відсутність анотацій, низьку якість відеороликів вуличних камер та великі зміни між класом. Більшість нинішніх методологій класифікують діяльність як “нормальну” або “аномальну”, не розрізняючи різні категорії ненормальної діяльності.
Однак у реальних системах спостереження в реальному світі виявлення аномалії, таких як боротьба, стрілянина, вандалізм тощо, все ще є складним завданням у комп’ютерному зорі, який потребує більшої уваги для ефективного моніторингу. Розробка надійних систем спостереження, які можуть точно виявити аномалії в реальному світі, є важливими через два основні проблеми. По -перше, багато існуючих наборів даних включають лише невелику кількість аномальних подій, що призводить до нижчих можливостей узагальнення моделі, виявлення низького рівня точності та вимоги до більш високих обчислювальних та навчальних ресурсів. Інше питання-відсутність точного опису аномалій, оскільки аномальні явища рідкісні в реальних ситуаціях і демонструють більшу мінливість, ніж звичайні події. Виявлення аномальних дій вимагає ефективного, автоматизованого підходу до моніторингу та оцінки, що підвищує ефективність моніторингу, скорочуючи час, необхідний для вручну оцінити численні відео. Крім того, як показано в таблиці 1, традиційні підходи для виявлення аномалії зазвичай включають пряму обробку та класифікацію кожного кадру, захопленого камерами відеоспостереження на потужних централізованих серверах. Останні методи в основному зосереджуються на бінарних завданнях класифікації, таких як аномальні або нормальні. Ці методи покладаються на значну обчислювальну здатність визнати та класифікувати аномальні події в режимі реального часу. Однак такий підхід може бути інтенсивним ресурсами, що призводить до високих обчислювальних витрат та використання пропускної здатності мережі, оскільки кожен кадр, включаючи не-аномальні, передається та аналізується.
Щоб вирішити ці виклики, ми використовуємо концепцію AIOT, вводячи рамку спільної роботи з хм / хмарами. У нашому підході початковий аналіз на основі кадрів проводиться безпосередньо на Edge Device. Ця модель виявлення аномалії на основі краю є легкою та розроблена для роботи в межах обмежень ресурсів. Коли виявлена аномальна подія, на хмарний сервер надсилається лише відповідні кадри для подальшого, більш детального розпізнавання аномалії. Цей підхід значно зменшує обчислювальні витрати та використання пропускної здатності порівняно з традиційними системами, оскільки передаються та обробляються лише аномальні кадри, а не всі кадри. Сервер відповідає за вилучення просторових функцій із серії кадрів, поєднуючи їх як просторово -часову інформацію. Ці витягнуті функції вдосконалюються SAM, а потім вживаються в мережу на основі трансформатора багато голови (TMA) для зйомки контекстних залежностей. Нарешті, найбільш релевантні функції вибираються з цих функцій за допомогою модуля MSF. Основні внески цього дослідження такі:
- •
Ми розробляємо легку рамкову рамку для виявлення аномалії, де в хмарі передаються лише аномальні кадри. Ця селективна передача значно знижує використання пропускної здатності та обробку накладних витрат, що робить її придатною для систем спостереження в реальному часі на основі AIOT.
- •
Для вилучення функцій ми використовуємо модель Convnext-Large, використовуючи її здатність фіксувати детальні просторові уявлення з відео-кадрів. Далі йде модуль просторової уваги (SAM), багато голову та модуль багатомасштабного вдосконалення функцій (MSF) для посилення контекстуального розуміння та зосередження уваги на критичних регіонах.
- •
Запропонована система зменшує непотрібні обчислення, фільтруючи звичайні кадри на початку трубопроводу, що дозволяє ефективно використовувати крайові ресурси та швидший час відгуку.
- •
Для підтвердження ефективності запропонованої системи ми проводимо комплексні експерименти на трьох складних наборах даних: Університет Центральної Флориди (UCF-Crime), масштабне виявлення аномалії (LAD-2000) та реальні бойові справи (RWF-2000). Результати демонструють, що наша система забезпечує конкурентну ефективність прогнозування порівняно з іншими сучасними методами (SOTA). Крім того, підвищена продуктивність досягається зі значно зниженим розміром моделі, полегшуючи легку інтеграцію з камерами відеоспостереження для ефективного та ресурсного спостереження.
Решта розділів статті структуровані наступним чином: Розділ 2 надає всебічний огляд відповідної роботи, запропонована рамка описана в розділі 3, деталі реалізації та експериментальні результати обговорюються у розділі 4, і, нарешті, висновок та майбутні вказівки наведені у розділі 5.