Інтелектуальні зв’язані транспортні системи (ICTS) з’явилися як трансформаційний прогрес в інфраструктурі міської мобільності. Шляхом інтеграції технологій Інтернету речей (IoT) із передовими сенсорними пристроями (наприклад, підключеними транспортними засобами, радарами, системами моніторингу на основі візуалізації тощо), ICTS створюють кіберфізичну структуру, здатну здійснювати спостереження за дорожнім рухом із високою роздільною здатністю, забезпечуючи динамічну взаємодію між учасниками дорожнього руху, транспортними засобами та транспортною інфраструктурою.
Однак операційна ефективність ICTS, керованих даними, критично залежить від цілісності даних трафіку, зібраних датчиками. Незважаючи на широке розгортання сенсорних пристроїв у сучасних дорожніх мережах, залишаються постійні проблеми з досягненням повного охоплення просторово-часових даних. На певних ділянках доріг можуть бути обмежені діапазони виявлення або затримка оновлення даних через старіння обладнання або запізніле технічне обслуговування. Збої в роботі пристроїв для передачі даних і непередбачувані порушення навколишнього середовища часто призводять до втрати або пошкодження даних. Така неповнота даних ставить під загрозу надійність оцінки та прогнозування стану трафіку, тим самим перешкоджаючи розробці додатків нижче [9,28]. Таким чином, розробка ефективного методу імпутації даних трафіку залишається актуальною та критичною задачею в останні роки.
Еволюція методологій імпутації відображає постійні зусилля з подолання цих проблем. Звичайні статистичні методи, які в основному оцінюють відсутні значення на основі часових характеристик або історичних закономірностей, не можуть адекватно моделювати складні просторово-часові взаємозалежності, властиві даним трафіку [2,24]. Хоча тензорна декомпозиція може зберегти внутрішні шаблони трафіку за допомогою низьковимірного відображення, її математична жорсткість і обмеження масштабованості перешкоджають практичному розгортанню [1,46]. Навпаки, парадигми глибокого навчання демонструють чудові можливості нелінійного моделювання, а генеративні змагальні мережі (GAN) демонструють особливу перспективу в сценаріях із високим відсотком пропусків завдяки прихованому розподілу навчання. [50]. Одночасно дослідники досліджували стратегії інтеграції даних із багатьох джерел для підвищення точності оцінки стану трафіку [36,43,45]. Взаємодоповнюваність відсутніх даних у різних джерелах є багатообіцяючим шляхом для покращення імпутації. Коли одне джерело даних стикається з просторовими або часовими прогалинами, інші джерела часто забезпечують додаткове покриття. Використовуючи цю взаємодію між джерелами, можна значно підвищити точність імпутації, підвищивши точність і стійкість оцінок стану трафіку, незважаючи на властиву неповноту даних. Тим не менш, залишаються дві основні проблеми, які необхідно вирішити. (i) Експоненційне зростання даних про дорожній рух і широке розгортання гетерогенних сенсорних пристроїв у мережах доріг створюють значні перешкоди для міжсистемної передачі даних та інтерактивної обробки. Більшість існуючих інфраструктур на основі GAN покладаються на централізовані архітектури, які вимагають необмеженого обміну даними з центральними серверами, створюючи значні ризики конфіденційності та зростаючи витрати на передачу/зберігання, оскільки обсяги даних ICTS продовжують різко зростати. (ii) Дані про трафік з багатьох джерел, зібрані різними методологіями, демонструють значні відмінності в просторово-часовій деталізації та просторовому охопленні. Невибіркова інтеграція цих зразків часто призводить до забруднення функцій, що погіршує точність моделі. У той час як різнорідні джерела даних мають спільні базові шаблони трафіку, їхні відмінні характеристики вимагають спеціальної обробки, щоб зменшити плутанину характеристик і забезпечити можливість узагальнення моделі.
Останні досягнення у федеративному навчанні (FL) пропонують багатообіцяючу альтернативу, коли клієнти спільно навчають модель на основі своїх особистих даних і лише обмінюються проміжними параметрами моделі із сервером для агрегації [19,47]. Однак фундаментальна проблема полягає в несумісності між припущеннями традиційного FL і природою неоднорідних даних трафіку. Більшість існуючих реалізацій FL у програмах трафіку переважно використовують горизонтальні об’єднані архітектури, які передбачають уніфіковані структури даних для учасників. На практиці традиційні сенсорні пристрої демонструють притаманну неоднорідність у часовій роздільній здатності, просторовій деталізації та модальності даних. Зокрема, нещодавнє зростання кількості даних підключених транспортних засобів (CV) ще більше посилює цю неоднорідність, оскільки траєкторії CV забезпечують дрібнозернисті мобільні потоки зондування, які суттєво відрізняються від традиційних фіксованих датчиків. Безпосереднє застосування горизонтальної FL до таких даних призводить до двох критичних проблем. По-перше, це призводить до серйозної несумісності простору параметрів. Клієнти з різними вхідними розмірами (наприклад, 5-хвилинні дані детектора циклу проти 1-хвилинних даних траєкторії CV) не можуть усереднювати параметри моделі пошарово, оскільки ця операція є математично невизначеною або семантично безглуздою. По-друге, це змушує наївне злиття різнорідних ознак, створюючи проблему «неузгодженості характеристик». Просте об’єднання функцій з різних джерел (наприклад, об’єм на рівні зв’язку, потік на рівні повороту та дані траєкторії) в єдиний вектор створює простір ознак, що відрізняється від IID і невирівняним. Це призводить до семантичної плутанини, коли модель змушена вчитися на змішаній і несумісній семантиці, що в кінцевому підсумку погіршує її здатність до узагальнення та точність імпутації. Щоб максимізувати переваги цих різнорідних джерел даних, важлива ефективна стратегія інтеграції.
- •
Запропонована MSFGAN є першою інтегрованою системою навчання, розробленою для точної реконструкції даних трафіку з неоднорідних вхідних даних із багатьох джерел. Його двоперспективний дизайн дає змогу всебічно моделювати глобальні просторово-часові залежності та шаблони, що стосуються джерела, таким чином усуваючи вузькі місця взаємодії та проблеми з неузгодженістю функцій, властиві транспортним системам із підтримкою Інтернету речей.
- •
Ми використовуємо стратегію синхронного оновлення на основі довіри, яка динамічно агрегує різні джерела даних на основі як історичних моделей, так і надійності даних у реальному часі. Використовуючи додаткові характеристики даних із багатьох джерел, цей механізм автономно визначає найефективнішу стратегію імпутації для різноманітних сценаріїв відсутніх даних, що призводить до більш надійних і точних реконструкцій, ніж звичайні методи статичного об’єднання.
- •
Щоб використати та змоделювати приховані кореляції в гетерогенних даних трафіку з багатьох джерел, ми розробляємо модуль гетерогенного перетворення на основі GCN, який відображає структурно різноманітні вхідні дані в єдиний латентний простір. Ця конструкція явно моделює міжджерельні просторові кореляції та часові неузгодженості, сприяючи узгодженому поєднанню шаблонів трафіку, що відрізняються роздільною здатністю, у рамках FL.
- •
Масштабні експерименти на реальних наборах даних демонструють чудову продуктивність імпутації MSFGAN порівняно з найсучаснішими базовими лініями. Незважаючи на серйозні сценарії пошкодження даних, MSFGAN забезпечує надійні та надійні результати імпутації, використовуючи інформацію з доступних джерел даних.