Описание и структура / Apache Airflow 2.2: практический курс

Про формат Parquet

Вам, как дата инженеру, предстоит неоднократно столкнуться с различными форматами файлов. Хранить данные открытым текстом дорого и неэффективно. Дорого потому что объём больше (а в S3 плата взымается в том числе за размер файла), а неэффективно потому что для того, чтобы найти в нём нужную информацию, его надо прочитать целиком (не говоря уже о времени передачи по сети). Умные головы за нас решили эту проблему, поэтому существует множество эффективных способов хранить и читать данные.

Apache Parquet — это бинарный формат колоночного хранения данных в сжатом виде (есть ряд поддерживаемых алгоритмов сжатия, включая lzo, gzip, snappy и т.д.). Идеально подходит для представления табличных данных. Parquet-файл можно представить в виде базы данных с одной таблицей. Преимущество этого формата в эффективной компрессии файла за счёт колоночного хранения (строка по сути содержит все данные одной конкретной колонки), а также в эффективном чтении. В аналитических запросах редко присутствуют выборки всех колонок сразу, обычно читают лишь часть. Если не вдаваться в детали реализации Parquet, а попробовать объяснить представление данных внутри максимально просто, то Parquet выглядит как небольшая файловая система, где значения каждой колонки лежат в отдельных файлах, а также присутствует дополнительный файл с метаданными, где хранится информация о типах колонок и их расположении. То есть чтобы получить значения заданных колонок нужно прочитать только файлы, содержащие данные этих колонок (а не всё целиком). Надеюсь у меня получилось внятно объяснить. Подробную информацию можно найти на официальном сайте Apache Parquet. Также рекомендую взглянуть на наглядное сравнение между Parquet и CSV в скорости обработки и стоимости.

Comments

Dmitry Kosarevsky 27 November 2021

https://databricks.com/glossary/what-is-parquet отдаёт 404, возможно имеет смысл заменить ссылку

Step 2 of 3

Про формат Parquet

Comments

Content

Пререквизиты

Зачем нужен Workflow Manager

Почему Apache Airflow

Установка Apache Airflow

Настройка Apache Airflow

Веб-сервер и UI

База данных Apache Airflow

Directed Acyclic Graph (DAG)

Операторы Apache Airflow

Планировщик (Scheduler)

Executors

Скелет DAG

Добавление DAG

Про зависимость тасков

Про TaskFlow API

Описание и структура

Операторы DAG

Backfill и Catchup

Сенсоры

Описание и структура

Операторы

Создание своего Hook

Создание своего Operator

Собираем DAG

Бонус

SLA (Service-Level Agreement)

Логирование в Apache Airflow

Apache Airflow REST API

Безопасность

Настраиваем CeleryExecutor

DAGs

Создание виртуальной машины

Установка и настройка Apache Airflow

Настройка сервера

Настройка CI/CD через GitHub Actions

Step 2 of 3

Про формат Parquet

Comments

Content

Введение

Пререквизиты

Зачем нужен Workflow Manager

Почему Apache Airflow

Установка и настройка

Установка Apache Airflow

Настройка Apache Airflow

Компоненты Apache Airflow

Веб-сервер и UI

База данных Apache Airflow

Directed Acyclic Graph (DAG)

Операторы Apache Airflow

Планировщик (Scheduler)

Executors

Пишем первый DAG

Скелет DAG

Добавление DAG

Про зависимость тасков

Про TaskFlow API

New York Yellow Taxi Data Pipeline

Описание и структура

Операторы DAG

Backfill и Catchup

Сенсоры

Загружаем курсы валют через Airflow

Описание и структура

Операторы

Создание своего Hook

Создание своего Operator

Собираем DAG

Бонус

Продвинутый Apache Airflow

SLA (Service-Level Agreement)

Логирование в Apache Airflow

Apache Airflow REST API

Безопасность

Настраиваем CeleryExecutor

Командная строка Apache Airflow

DAGs

Деплой Apache Airflow

Создание виртуальной машины

Установка и настройка Apache Airflow

Настройка сервера

Настройка CI/CD через GitHub Actions