
(Захарчук/Shutterstock)
Знову та пора року – час для прогнозів! Ми починаємо 2025 рік прогнозів, оцінок і передбачень з теми, яка близька і дорога нашим серцям тут, на BigDATAwire: аналітика даних.
Світ бачив усі види шаблонів для аналітики: озера даних, сховища даних, аналітика в пам’яті та вбудована аналітика. Але в 2025 році стандартом для аналітики стане озерце даних, каже Еммануель Даррас, генеральний директор і співзасновник Kestra, розробника оркестровальної платформи з відкритим кодом.
«Очікується, що до 2025 року більше половини всіх аналітичних завдань працюватимуть на архітектурах lakehouse завдяки економії коштів і гнучкості, які вони пропонують», — каже Даррас. «Наразі компанії переходять від хмарних сховищ даних до озерних сховищ не лише для того, щоб заощадити гроші, але й для того, щоб спростити шаблони доступу до даних і зменшити потребу в дублюванні даних. Великі організації повідомили про економію понад 50%, що є серйозною перевагою для тих, хто потребує значної обробки даних».
Одним із великих рушійних факторів Data Lakehouse є стандартизація відкритих форматів даних. Це тенденція, яка продовжуватиме розвиватися у 2025 році, прогнозує Адам Бельмар, головний технолог групи технологічної стратегії в Confluent.

За прогнозами, у 2025 році будинки на озері поширяться (FlorentinCatargiu/Shutterstock)
«Наступного року ми побачимо широку стандартизацію відкритих форматів даних, таких як Apache Iceberg, Delta Lake і Apache Hudi», — говорить Бельмар. «Це буде зумовлено більшим попитом на сумісність, коли підприємства прагнуть безпроблемно поєднувати дані з різних платформ, партнерів і постачальників. Оскільки підприємства надають пріоритет доступу до своєчасних високоякісних даних, формати відкритих даних більше не будуть необов’язковими, а обов’язковими для успіху бізнесу. Ті, хто не прийме ці відкриті стандарти, ризикують втратити конкурентну перевагу, а ті, хто їх прийме, зможуть запропонувати високоякісні пропозиції та статистику міжплатформних даних у реальному часі».
Двома найбільшими прихильниками центру даних є Snowflake і Databricks. Але у 2025 році люди втомляться від війни Snowflake/Databrick і звернуться до об’єднаних ІТ для вдосконаленої архітектури даних, каже Ендрю Медсон, технічний проповідник у Dremio та професор даних і аналітики в університетах Південного Нью-Гемпшира та Гранд-Каньйону.
«Центральні ІТ-команди продовжуватимуть децентралізацію відповідальності між бізнес-підрозділами, створюючи більш об’єднані операційні моделі», — каже Медсон. «Тим часом, монолітні архітектури від великих постачальників, таких як Snowflake і Databricks, інтегруватимуть додаткові інструменти, спрямовані на підвищення економічної ефективності та продуктивності, створюючи гібридні екосистеми, які поєднують інновації та практичність».
Моделювання даних роками потопало у відносній невідомості. У 2025 році практика матиме свій момент на сонці, каже Аді Полак, директор Confluent з адвокації та розробки досвіду розробників.

Айсберг увімкнув поширення даних Lakehouse
«Моделювання даних уже давно є сферою діяльності DBA (адміністраторів баз даних), але з поширеним використанням форматів відкритих таблиць, таких як Apache Iceberg, моделювання даних — це навичка, якою потрібно оволодіти більшій кількості інженерів», — каже Полак. «Для розробки додатків інженерам все частіше доводиться створювати багаторазово використовувані продукти даних, які підтримують робочі навантаження як у режимі реального часу, так і пакетні, з одночасним прогнозуванням моделей споживання в подальшому. Щоб ефективно створювати ці продукти даних, інженери повинні розуміти, як дані будуть використовуватися, і на ранній стадії розробити правильну структуру або модель, придатну для споживання. Ось чому моделювання даних стане важливою навичкою для інженерів, яку необхідно опанувати в наступному році.
Є одна тема, якої неможливо буде уникнути у 2025 році: штучний інтелект (так, незабаром у нас з’явиться матеріал про прогнози на 2025 рік). Вплив штучного інтелекту буде відчутним усюди, включно зі стеком аналітики даних, каже Крістіан Бакнер, старший віце-президент з аналітики та Інтернету речей Altair.
«Сьогодні багатьом бізнес-лідерам важко знати, які питання поставити своїм даним або де знайти відповіді», — говорить Бакнер. «Агенти штучного інтелекту змінюють це, автоматично надаючи інформацію та рекомендації, не потребуючи, щоб хтось запитував. Цей рівень автоматизації матиме вирішальне значення для того, щоб допомогти організаціям розблокувати глибше розуміння та зв’язки в їхніх даних і дати їм змогу приймати більш стратегічні рішення для бізнесу. для компаній важливо встановити огорожі, щоб контролювати пропозиції, керовані штучним інтелектом, і підтримувати довіру до результатів».
Коли ви сказали «аналітика», це раніше створювало образи того, як хтось запускає настільний інструмент BI для роботи з фрагментом даних зі сховища. Мої, часи змінилися. За словами генерального директора Sisense Аріеля Каца, 2025 рік призведе до загибелі традиційної бізнес-аналітики, яка буде замінена аналітикою на основі API та GenAI у кожному додатку.
«У 2025 році традиційні інструменти BI застаріють, оскільки архітектури на основі API та GenAI безперешкодно вбудовують аналітику в реальному часі в кожну програму», — каже Кац. «Аналіз даних буде надходити безпосередньо в CRM, платформи продуктивності та клієнтські інструменти, що дасть змогу співробітникам усіх рівнів миттєво приймати рішення на основі даних – технічна експертиза не потрібна. Компанії, які приймуть цю зміну, отримають безпрецедентну продуктивність і клієнтський досвід, залишивши статичні інформаційні панелі та закриті системи в пилу».

Передбачається, що вбудована аналітика стане великою у 2025 році (ZinetroN/Shutterstock)
Великі дані були великими, тому що… ну, вони просто були (повірте нам). Але у 2025 році рух великих даних відкриє нову главу, вітаючи родича великих даних під назвою малі дані, прогнозує Франсуа Аженстат, директор з продуктів Amplitude.
«Останні кілька років спостерігали зростання обсягів даних, але 2025 рік перенесе фокус з «великих даних» на «малі дані», — каже Айенстат. «Ми вже спостерігаємо цю зміну мислення, коли великі мовні моделі поступаються місцем малим мовним моделям. Організації розуміють, що їм не потрібно надавати всі свої дані, щоб вирішити проблему чи завершити ініціативу – їм потрібно надати правильні дані. Надзвичайна кількість даних, яку часто називають «болотом даних», ускладнює отримання значущої інформації. Зосереджуючись на більш цілеспрямованих, високоякісних даних або «ставці даних», організації можуть забезпечити довіру та точність даних. Цей перехід до менших, релевантніших даних допоможе пришвидшити терміни аналізу, заохотить більше людей використовувати дані та збільшить рентабельність інвестицій від інвестицій у дані».
Завжди було круто мати високоякісні дані. Але у 2025 році наявність високоякісних даних стане обов’язковим для бізнесу, каже Раджан Гоял, генеральний директор і співзасновник DataPelago.
«Ми бачимо все більше повідомлень про те, що постачальники LLM борються з уповільненням роботи моделі, а закон масштабування штучного інтелекту все частіше ставиться під сумнів», — говорить Гоял. «Оскільки ця тенденція збережеться, наступного року стане загальноприйнятим, що ключем до розробки, навчання та тонкої настройки більш ефективних моделей штучного інтелекту є не більше даних, а кращі дані. Зокрема, ключовими будуть високоякісні контекстні дані, які відповідають передбачуваному варіанту використання моделі. Окрім розробників моделей, ця тенденція покладе більший обов’язок на кінцевих клієнтів, які володіють більшою частиною цих даних, щоб модернізувати свої архітектури керування даними відповідно до сучасних вимог штучного інтелекту, щоб вони могли ефективно налаштовувати моделі та підживлювати робочі навантаження RAG».
Силоси даних подібні до грибів: вони з’являються природним шляхом без будь-якого втручання людини. Але у 2025 році компаніям потрібно буде вийти на вершину зростання накопичених даних, якщо вони хочуть досягти успіху, каже Моллі Преслі, старший віце-президент із глобального маркетингу Hammerspace.

Це не гриби — це накопичувачі даних (Aleutie/Shutterstock)
«У 2025 році знищення силосних даних стане критичною архітектурною проблемою для інженерів обробки даних і архітекторів штучного інтелекту», — пише Преслі. «Здатність агрегувати й уніфікувати різні набори даних між організаціями буде важливою для розвитку розширеної аналітики, штучного інтелекту та машинного навчання. ініціативи. Оскільки обсяг і різноманітність джерел даних продовжують зростати, подолання цих ізоляції буде мати вирішальне значення для забезпечення цілісного розуміння та прийняття рішень, яких вимагають сучасні системи ШІ».
Керуючи доступом користувачів до даних, іноді здається, що все відразу. Замість того, щоб боротися з розповсюдженням працівників і даних, у 2025 році команди навчаться ефективніше використовувати такі інструменти, як потокові дані, щоб підвищити свою продуктивність, прогнозує генеральний директор Arcitecta Джейсон Лорі.
«Розвиток віддаленої роботи та територіально розподілених команд змінив принципи роботи компаній», — каже Лорі. «Потокова передача даних у режимі реального часу дозволяє організаціям записувати події та ділитися живими стрічками по всьому світу, дозволяючи співробітникам співпрацювати над безперервними потоками даних без необхідності бути фізично присутніми. Ця тенденція, ймовірно, прискориться у 2025 році, оскільки все більше компаній запровадять інструменти, які сприятимуть безперебійному мовленню та розподілу даних. Забезпечуючи співпрацю в режимі реального часу між розподіленою робочою силою, компанії можуть скоротити витрати на поїздки, підвищити ефективність і швидше приймати більш обґрунтовані рішення. Глобальне охоплення технології потокової передачі даних буде розширюватися, що дозволить організаціям залучати ширший пул талантів і створювати більш динамічні та гнучкі операційні структури».
Залишити відповідь