Ми вступили в епоху інженерії даних.
Це брехня, правда, ми працюємо з методологіями, інструментами та процесами розробки даних з шістдесятих років, коли ми увійшли в еру ПК «IBM», а потім перейшли до створення мереж, Інтернету, хмарної моделі на основі послуг. обчислення та нова ера ШІ з його генеративними фанфарами та функціями.
Але зараз виглядає схоже на нову еру з точки зору зосередженості технологічної індустрії на розробці даних, можливо, насамперед тому, що ми знаємо, що ми розуміємо цінність кожного окремого даного в ширшому поході до створення розвідувальних служб і функцій автоматизації.
Серія CWDN
Отже, ми починаємо серію розробників даних Computer Weekly Developer Network. Ця добірка колонок і редакційних статей буде надіслана добросовісними інженерами програмного забезпечення та науковцями з обробки даних на всіх рівнях, які присвятили більшу частину своєї кар’єри піклуванню про цінності, отримані з «цінностей» (там каламбур даних), які пронизують програми та служби, які тепер ми всі залежимо від.
Але що таке інженерія даних?
Простіше кажучи, інженерія даних передбачає створення обчислювальних систем, створених для збору, керування та перетворення необроблених даних (іноді структурованих, часто неструктурованих) у придатну для використання форму. Частина ширшої дисципліни науки про дані, спеціалісти з розробки даних мають нагляд за розробкою та керуванням архітектурами баз даних і системами обробки даних.
Інженерія даних сьогодні (особливо в епоху штучного інтелекту), зосереджена на ключових завданнях, включаючи інтеграцію, передбачає визначення областей, де автоматизація може створювати більш функціональні конвеєри даних, які ефективно обслуговують робочі додатки програмного забезпечення.
Інші аспекти розробки даних включатимуть дублювання даних, перевірку даних і керування даними, щоб закріпити інформаційні ресурси в межах відповідних засобів контролю бізнес-політики, а також захист конфіденційності та безпеки, і це має бути виконано таким чином, щоб дані відповідали нормативним вимогам. та контроль управління.
Хто такі інженери даних?
Інженери з обробки даних, як правило, мають певну кваліфікацію розробника програмного забезпечення та досвід роботи з науковими предметами, але автоматизація означає, що в цю сферу залучається більше бізнес-аналітиків та інших спеціалістів у галузі.
Відповідно до IBM«Інженерія даних — це практика проектування та створення систем для агрегації, зберігання та аналізу даних у масштабі. Інженери з обробки даних дають організаціям можливість отримувати статистичні дані в реальному часі з великих наборів даних. Від соціальних медіа та маркетингових показників до статистики продуктивності співробітників і прогнозів тенденцій, підприємства мають усі дані, необхідні для складання цілісного уявлення про свою діяльність. Інженери обробки даних перетворюють величезну кількість даних у цінні стратегічні відкриття».
IBM також каже, що інженери даних «керують керуванням даними» для подальшого використання, включаючи аналіз, прогнозування або машинне навчання.
Як спеціалізовані інформатики, інженери обробки даних чудово створюють і розгортають алгоритми, конвеєри даних і робочі процеси, які сортують необроблені дані в набори даних, готові до використання. Big Blue вважає, що інженерія даних є невід’ємним компонентом сучасної платформи даних і дає можливість компаніям аналізувати та застосовувати дані, які вони отримують, незалежно від джерела чи формату даних.
Відповідно до DWP цифровий“Інженер даних бере необроблені дані, перетворює їх і зберігає у форматах, які відповідають сценаріям використання. Аналогією є паливна промисловість. Нафта видобувається зі свердловини, транспортується, переробляється в різні продукти (дизельне паливо, реактивне паливо, LPG, біопаливо) і зберігається для подальшого використання. Увесь процес контролюється, безпечний і автоматизований, із сповіщеннями, коли виникають проблеми. Інженерія даних — це та сама концепція, з даними замість нафти».
DWP вважає, що інженери з обробки даних повинні вміти вирішувати проблеми, щоб мати можливість обробляти інформацію, представляти постановку проблеми та бути орієнтованими на рішення. Зрештою, хороша інженерія даних може призвести до розробки «продуктів даних» (часто доступ до яких здійснюється через API), які оптимізовані для різних бізнес-відділів для використання всередині того, що зараз іноді називають «потоками даних», які забезпечують негайне опитування та підтримку в режимі реального часу прийняття рішень.
Замовниками продукту даних можуть бути як внутрішні підрозділи, так і зовнішні суб’єкти та організації.
Як розвивалася інженерія даних?
Відповідно до Сторінки GovUK для інженерії даних: «Приблизно в 1970-1980-х роках був створений термін методологія інформаційної інженерії (IEM) для опису дизайну бази даних і використання програмного забезпечення для аналізу та обробки даних. Ці методи були призначені для використання адміністраторами баз даних (DBA) і системними аналітиками на основі розуміння операційних потреб організацій у 1980-х роках».
Потім це змінилося, коли ми увійшли в ранні 2000-х, дані та інструменти для даних, як правило, належали командам інформаційних технологій (ІТ) у більшості компаній.
«На початку 2010-х років, з появою Інтернету, значне збільшення обсягів, швидкості та різноманітності даних призвело до появи терміна «великі дані» для опису самих даних, а технологічні компанії, що керуються даними, такі як Facebook і Airbnb, почали використовувати фразу інженер даних. . Завдяки новому масштабу даних такі великі компанії, як Google, Facebook, Amazon, Apple, Microsoft і Netflix, почали відходити від традиційних методів ETL і зберігання. Вони почали створювати інженерію даних, тип розробки програмного забезпечення, зосереджений на даних і, зокрема, на інфраструктурі, сховищах, захисті даних, кібербезпеці, видобутку корисних копалин, моделюванні, обробці та управлінні метаданими», – зазначає Структура професійних можливостей державних цифрових і даних.
Крім ETL, давайте поговоримо
Отже, давайте приступимо до цієї редакційної серії з реальним фокусом.
Вищенаведена експозиція та вступ повинні послужити відповідним дегустатором і постановкою сцени, щоб з’ясувати, чого ми хочемо від знавців інженерії даних, які тепер мають можливість пояснити, який статус має ця професія, які навички найважливіші, чи часто нелюбима Адміністратор баз даних тепер може мати високий статус у ІТ-команді, де автоматизація (і давайте, будь ласка, не забагато штучного інтелекту), може допомогти робочим процесам даних і чим розробка даних відрізняється від і вписується в ширше область науки про дані.
Залишити відповідь