Apache Airflow впервые появился в 2014 году в компании Airbnb. С января 2019 года является Top-Level проектом в организации Apache Foundation. Среди пользователей этого инструмента есть такие компании как Adobe, Lyft, Uber, Reddit, Google, Rambler, Alfa-Bank и даже Robinhood, и многие другие не менее известные компании. В декабре 2020 года вышла версия 2.0 в которой появилось очень много серьёзных улучшений. Именно второй версии посвящен этот курс.
Почему же стоит использовать Apache Airflow как основным workflow manager?
- У технологии огромное количество последователей и большое сообщество разработчиков. Например, ежегодно проходит Airflow Summit на котором собираются разработчики Airflow и все неравнодушные. Доклады с конференции можно увидеть на Ютуб-канале. Вот, например, видео-доклады с Airflow Summit 2020.
- Ведущие облачные провайдеры внедряют Airflow как сервис. Т.е. они предоставляют услугу Apache Airflow и берут на себя бремя администрирования им. Например, сервис Composer от Google Cloud и Managed Airflow от Amazon Web Services. Я думаю совсем скоро что-то подобное мы увидим и от Microsoft Azure. Также существует независимый SaaS продукт Astronomer. К слову, они одними из первых внедрили такую услугу. Такая инициатива от лидеров индустрии лишь подтверждает устойчивое положение Apache Airflow на рынке workflow инструментов.
- Apache Airflow был создан пионером области data engineering Maxime Beauchemin, человеком который разбирается в том что требуется дата инженерам в повседневной работе. И несмотря на то, что индустрия активно развивается, Apache Airflow также не стоит на месте. Чего стоит мажорный релиз второй версии, куда вошли такие фичи как Taskflow API, отказоустойчивый планировщик, полноценная поддержка REST API и множество других мелких правок.
Несомненно Apache Airflow далеко не единственный инструмент в арсенале современных дата инженеров. За последние несколько лет появилось множество интересных технологий для построения дата пайплайнов в том числе в экосистеме Python:
- Prefect — относительно новый workflow менеджер с открытым исходным кодом. Среди создателей есть люди, принимавшие участие в разработке Airflow. Ребята помимо продукта также развивают одноименной облачный сервис Prefect Cloud для тех, кто не хочет самостоятельно заниматься администрирование Prefect.
- Luigi — детище компании Spotify. Пожалуй, мой любимый workflow менеджер для быстрого старта и запуска своих пайплайнов. По функциональным возможностям он значительно уступает Apache Airflow, но отлично подойдёт для быстрого старта и прототипирования. Если вам хочется больше узнать про него, то обратите внимание на мой небольшой курс про Luigi.
- Dagster — также относительно новый инструмент, но активно развивающийся. Среди разработчиков Dagster есть автор GraphQL. Выглядит система внушительно, но пока активно развивается, считать её стабильной ещё рано.
Здоровая конкуренция среди workflow менеджеров это отлично. Apache Airflow за последний год претерпел приятные изменения, думаю без влияния конкурентов не обошлось. Область не стоит на месте, а с ней и инструменты.
bionika 20 Май 2021
В 3ем пункте: И ни смотря на том, что -->> "И несмотря на то, что"