В AWS ми прагнемо надати організаціям інструменти, які оптимізують аналіз даних і процеси трансформації. Ми раді повідомити, що адаптер dbt для Amazon Athena тепер офіційно підтримується в dbt Cloud. Ця інтеграція дозволяє групам обробки даних ефективно перетворювати та керувати даними за допомогою Athena з надійними функціями dbt Cloud, покращуючи загальний досвід роботи з даними.
У цій публікації ми обговорюємо переваги dbt Cloud над dbt Core, загальні випадки використання та те, як розпочати роботу з Amazon Athena за допомогою адаптера dbt.
Необхідність упорядкованих перетворень даних
У міру того, як організації все більше використовують хмарні озера та сховища даних, попит на ефективні інструменти перетворення даних зростає. Athena відіграє важливу роль у цій екосистемі, надаючи безсерверну інтерактивну службу запитів, яка спрощує аналіз величезних обсягів даних, що зберігаються в Amazon Simple Storage Service (Amazon S3) за допомогою стандартного SQL. Це дає змогу витягувати статистичні дані зі своїх даних без складного керування інфраструктурою.
dbt став провідною структурою, що дозволяє групам даних ефективно трансформувати та керувати конвеєрами даних. Завдяки адаптеру dbt для адаптера Athena, який тепер підтримується в хмарі dbt, ви можете легко інтегрувати свою архітектуру даних AWS із хмарою dbt, використовуючи переваги масштабованості та продуктивності Athena для спрощення та ефективного масштабування робочих процесів даних.
Переваги адаптера dbt для Athena
Ми співпрацювали з dbt Labs і спільнотою з відкритим кодом над адаптером для dbt, який дозволяє dbt взаємодіяти безпосередньо з Athena. Раніше адаптер dbt для Athena був сумісний лише з dbt Core, вимагаючи від команд вручну керувати конфігураціями та виконувати перетворення локально або за допомогою спеціальних налаштувань. Тепер, завдяки підтримці dbt Cloud, ви можете отримати доступ до керованого хмарного середовища, яке автоматизує та вдосконалює ваші робочі процеси перетворення даних. Це оновлення дозволяє створювати, тестувати та розгортати моделі даних у dbt з більшою легкістю та ефективністю, використовуючи всі функції, які надає dbt Cloud.
Підтримка dbt-адаптера для Athena в dbt Cloud пропонує кілька переваг перед його використанням з dbt Core:
- Керована інфраструктура – dbt Cloud забезпечує повністю кероване середовище для запуску проектів dbt, усуваючи необхідність локального налаштування, обслуговування та конфігурації. Це економить час і зусилля, особливо для команд, які прагнуть мінімізувати управління інфраструктурою та зосередитися виключно на моделюванні даних.
- Планування та автоматизація – dbt Cloud поставляється з планувальником завдань, що дозволяє автоматизувати виконання моделей dbt. Ця функція гарантує, що ваші набори даних завжди актуальні без необхідності налаштовувати та підтримувати зовнішні системи планування, такі як Apache Airflow. Ви також можете легко встановити залежності між завданнями в dbt Cloud, переконавшись, що перетворення виконуються в правильній послідовності без ручного контролю.
- Покращена співпраця та контроль версій – Ви можете використовувати веб-інтерфейс для редагування та перегляду dbt-моделей, уможливлюючи співпрацю між групами даних. Ви можете переглядати зміни коду безпосередньо на платформі, сприяючи ефективній командній роботі. Крім того, dbt Cloud інтегрується з постачальниками Git, що спрощує контроль версій і співпрацю над кодом. Це гарантує, що ваші моделі даних добре задокументовані, мають версії та прості для керування в середовищі спільної роботи.
- Спостереження та оповіщення – Ви отримуєте вбудовані інструменти для моніторингу виконання завдань і продуктивності, щоб налаштовувати попередження та сповіщення про збої завдань, забезпечуючи швидкий час відповіді та мінімізуючи збої. Крім того, ви можете отримати уявлення про продуктивність ваших перетворень даних за допомогою детальних журналів виконання та показників, доступних через інтерфейс dbt Cloud.
Загальні випадки використання адаптера dbt з Athena
Нижче наведено типові випадки використання адаптера dbt з Athena:
- Побудова сховища даних – Багато організацій рухаються до архітектури сховищ даних, поєднуючи гнучкість озер даних із продуктивністю та структурою сховищ даних. Використовуючи Athena та адаптер dbt, ви можете перетворювати необроблені дані в Amazon S3 у добре структуровані таблиці, придатні для аналітики. Це налаштування дозволяє компаніям створювати масштабоване та ефективне озерце даних, де вони можуть виконувати перетворення на основі SQL і переконатися, що дані чисті та готові для аналітики, не вкладаючи значних коштів в інфраструктуру сховища даних.
- Інкрементна обробка даних – Адаптер дозволяє здійснювати поступову обробку даних, де перетворюються та обробляються лише нові або оновлені дані. Ця функція зменшує обсяг даних, сканованих Athena, що призводить до швидшої роботи запитів і зниження витрат. Наприклад, замість того, щоб обробляти весь набір даних щодня, dbt можна налаштувати на перетворення лише даних, отриманих за останні 24 години, що робить операції з даними більш ефективними та рентабельними.
- Управління та оптимізація витрат – Оскільки Athena стягує плату на основі обсягу даних, сканованих за кожним запитом, оптимізація витрат є надзвичайно важливою. Адаптер дозволяє групам даних оптимізувати перетворення шляхом створення ефективних моделей даних, таких як розділення та стиснення даних для мінімізації витрат на сканування. Крім того, автоматизоване планування dbt у хмарі dbt можна використовувати для керування частотою перетворень даних, гарантуючи, що запити виконуються лише за необхідності, допомагаючи ефективно контролювати витрати.
- Архівація даних і багаторівневе зберігання – Організації з великою кількістю історичних даних можуть використовувати Athena для запиту архівних даних, що зберігаються в недорогих класах зберігання Amazon S3 (таких як Amazon S3 Glacier). За допомогою адаптера групи обробки даних можуть створювати моделі, які сегментують і обробляють дані на основі моделей використання, гарантуючи, що дані, до яких часто звертаються, оптимізовані для швидких запитів, а старі дані залишаються доступними, але економічно ефективними. Крім того, ви можете використовувати Amazon S3 Intelligent-Tiering, щоб оптимізувати витрати на зберігання, переміщуючи дані між двома рівнями доступу, коли шаблони доступу змінюються. Цей підхід допомагає в управлінні витратами на зберігання, зберігаючи при цьому гнучкість для аналізу історичних тенденцій, коли це необхідно.
- Перетворення даних, керовані подіями – У сценаріях, коли організаціям потрібно обробляти дані майже в режимі реального часу, наприклад для потокової передачі журналів подій або даних Інтернету речей (IoT), ви можете інтегрувати адаптер у керовану подіями архітектуру. Наприклад, дані про події можна безперервно завантажувати в Amazon S3, а моделі dbt можна налаштувати на поступовий запуск, перетворюючи нові дані в структуровані формати для негайного аналізу. Це налаштування підтримує гнучку обробку даних, одночасно використовуючи переваги безсерверної архітектури Athena, щоб підтримувати низькі операційні витрати.
- Відповідність і управління даними – Для організацій, які керують конфіденційними або регульованими даними, ви можете використовувати Athena та адаптер для забезпечення дотримання правил керування даними. За допомогою dbt команди можуть визначати перевірку якості даних і контроль доступу як частину робочого процесу трансформації. Це гарантує, що для аналітики доступні лише сумісні високоякісні дані, а витрати оптимізуються шляхом обробки лише даних, які відповідають стандартам управління. Крім того, функції документування dbt допомагають підтримувати чіткий облік перетворень даних, підтримуючи зусилля з аудиту та відповідності.
Як користуватися адаптером dbt для Athena
Щоб почати, створіть проект і налаштуйте з’єднання з Athena в dbt Cloud. На наступному малюнку показано кроки для створення проекту за допомогою dbt Cloud і налаштування підключення Athena.
Далі скористайтеся інтерактивним середовищем розробки dbt Cloud (IDE), щоб розгорнути свій проект. На наступному малюнку показано, як створити запуски dbt і розгорнути зміни в Athena за допомогою інтерфейсу dbt Cloud.
Висновок
У AWS ми прагнемо надати вам найкращі інструменти та послуги, які допоможуть вам досягти успіху в хмарі. dbt стала провідною платформою перетворення даних, якій довіряють тисячі організацій по всьому світу. Завдяки партнерству з dbt Labs ми можемо перенести потужність dbt безпосередньо в хмару AWS, дозволяючи вам бездоганно інтегрувати робочі процеси перетворення даних у ширшу хмарну інфраструктуру. Це партнерство є свідченням нашого спільного бачення зробити дані більш доступними, надійними та цінними для організацій будь-якого розміру.
Ми з нетерпінням чекаємо, як ви використовуватимете dbt Cloud-сумісний адаптер dbt для Athena, щоб просувати свої ініціативи на основі даних. Поєднання dbt і Athena створює потужне й ефективне середовище для перетворення й аналізу даних у безсерверній архітектурі. Ця синергія дозволяє використовувати переваги обох інструментів, спрощуючи керування складними конвеєрами даних, зменшуючи витрати та масштабуючи свої операції.
Про авторів
Даршит Таккар є менеджером із технічних продуктів AWS і працює з командою Amazon Athena.
Селман Ай є архітектором даних у команді AWS Professional Services.
ВР сьогодні є старшим архітектором партнерських рішень в AWS, який допомагає клієнтам розробляти рішення для великих даних для обробки даних у масштабі
Залишити відповідь