Шаг 3 из 3

Ниже начальный код для будущего DAG с использованием синтаксиса TaskFlow API. По мере описания каждого оператора он будет заполняться в готовый для запуска DAG.

Как можно видеть из настроек, грузить данные мы будем за каждый месяц, начиная с 1 января 2020 года. Периодичность запуска — 1 раз в месяц.

from datetime import datetime

from airflow.decorators import dag, task
from airflow.operators.python import get_current_context
from airflow.providers.http.operators.http import SimpleHttpOperator
from .functions import download_dataset, convert_to_parquet

default_args = {
    'owner': 'airflow',
}

@dag(default_args=default_args,
     schedule_interval='@monthly',
     start_date=datetime(2020, 1, 1),
)
def nyc_taxi_dataset_dag():

   # здесь будут таски

Комментарии