Apache Airflow 2.2: практический курс: New York Yellow Taxi Data Pipeline / Описание и структура
Ниже начальный код для будущего DAG с использованием синтаксиса TaskFlow API. По мере описания каждого оператора он будет заполняться в готовый для запуска DAG.
Как можно видеть из настроек, грузить данные мы будем за каждый месяц, начиная с 1 января 2020 года. Периодичность запуска — 1 раз в месяц.
from datetime import datetime
from airflow.decorators import dag, task
from airflow.operators.python import get_current_context
from airflow.providers.http.operators.http import SimpleHttpOperator
from .functions import download_dataset, convert_to_parquet
default_args = {
'owner': 'airflow',
}
@dag(default_args=default_args,
schedule_interval='@monthly',
start_date=datetime(2020, 1, 1),
)
def nyc_taxi_dataset_dag():
# здесь будут таски