Описание и структура / Apache Airflow 2.2: практический курс

Датасет, содержащий поездки на такси по городу Нью-Йорк, пожалуй, один из самых распространённых примеров анализа данных. Данные открыто лежат на сайте.

Задача пайплайна — скачать сырые данные с сайта, трансформировать их в колоночный формат Parquet и загрузить в S3. Это одна из типичных задач дата инженеров, когда необходимо что-то откуда то выгрузить, сохранить и трансформировать.

В качестве хранилища я буду использовать AWS S3. Это популярный сервис для хранения файлов от компании Amazon, также S3 можно рассматривать как распределенную файловую систему. Чтобы воспользоваться AWS S3 необходимо иметь аккаунт в облаке AWS, также хранение данных на S3 предполагает некоторые расходы. Для тех, кто не хочет платить, я приведу альтернативу, которую можно развернуть у себя на компьютере. Сервис Minio полностью совместимый с S3 файловый сервер, поэтому Apache Airflow будет работать с ним как с AWS S3.

Структура пайплайна

Пайплайн (DAG) будет состоять из следующих операторов:

SimpleHttpOperator, его мы будем использовать для проверки существования файла на сервере перед его загрузкой
2 PythonOperator:
- download_file — загрузка файла с сайта и перекладывание на S3 в сжатом виде (gzip)
- to_parquet — оператор скачивает файл, загруженный предыдущим оператором, и трансформирует его в формат Parquet, сохраняя результат в S3.

Вот как выглядит это на диаграмме с зависимостями:

Безусловно выполнение последующего шага зависит от успешности предыдущего. Если необходимого файла на сервере нет (check_file), то выполнение загрузки нецелесообразно (download_file), за этим строго следит Airflow.

Step 1 of 3

Структура пайплайна

Comments

Content

Пререквизиты

Зачем нужен Workflow Manager

Почему Apache Airflow

Установка Apache Airflow

Настройка Apache Airflow

Веб-сервер и UI

База данных Apache Airflow

Directed Acyclic Graph (DAG)

Операторы Apache Airflow

Планировщик (Scheduler)

Executors

Скелет DAG

Добавление DAG

Про зависимость тасков

Про TaskFlow API

Описание и структура

Операторы DAG

Backfill и Catchup

Сенсоры

Описание и структура

Операторы

Создание своего Hook

Создание своего Operator

Собираем DAG

Бонус

SLA (Service-Level Agreement)

Логирование в Apache Airflow

Apache Airflow REST API

Безопасность

Настраиваем CeleryExecutor

DAGs

Создание виртуальной машины

Установка и настройка Apache Airflow

Настройка сервера

Настройка CI/CD через GitHub Actions

Step 1 of 3

Структура пайплайна

Comments

Content

Введение

Пререквизиты

Зачем нужен Workflow Manager

Почему Apache Airflow

Установка и настройка

Установка Apache Airflow

Настройка Apache Airflow

Компоненты Apache Airflow

Веб-сервер и UI

База данных Apache Airflow

Directed Acyclic Graph (DAG)

Операторы Apache Airflow

Планировщик (Scheduler)

Executors

Пишем первый DAG

Скелет DAG

Добавление DAG

Про зависимость тасков

Про TaskFlow API

New York Yellow Taxi Data Pipeline

Описание и структура

Операторы DAG

Backfill и Catchup

Сенсоры

Загружаем курсы валют через Airflow

Описание и структура

Операторы

Создание своего Hook

Создание своего Operator

Собираем DAG

Бонус

Продвинутый Apache Airflow

SLA (Service-Level Agreement)

Логирование в Apache Airflow

Apache Airflow REST API

Безопасность

Настраиваем CeleryExecutor

Командная строка Apache Airflow

DAGs

Деплой Apache Airflow

Создание виртуальной машины

Установка и настройка Apache Airflow

Настройка сервера

Настройка CI/CD через GitHub Actions