Комментарии

Добрый день! Делаю все как у вас, но получаю ошибку - ERROR - No connection adapters were found for '<https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2021-04.csv>' Вот ссылка на мой код - https://paste.ofcode.org/swHdQsVhnGsPziqcRRp8ik Не могли бы вы помочь?

Добрый день. Вам нужно заменить <https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_{year_month}.csv> на https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_{year_month}.csv, я поправил в коде на предыдущем уроке, видиом при копировании из Notion остались символы <>.

Добрый день! Предложение -- Решил использовать min.io раннее, однако в репозитории использует connection в AWS S3. Предложил бы сделать на этом моменте акцент, чтобы пользователи курса подменили aws_connection_id на minio_id в своих проектах. И вопрос по самому разделу airflow dag backfill с некорректным connection_id (использую min.io) После поправил изменил connection_id на minio_id, однако после повторного старта данного кода появилась следующая ошибка [2021-04-21 21:38:44,080] {backfill_job.py:477} ERROR - Task instance <TaskInstance: nyc_taxi_dataset_dag.download_file 2020-04-01 00:00:00+00:00 [failed]> with state failed [2021-04-21 21:38:44,104] {backfill_job.py:477} ERROR - Task instance <TaskInstance: nyc_taxi_dataset_dag.to_parquet 2020-04-01 00:00:00+00:00 [upstream_failed]> with state upstream_failed [2021-04-21 21:38:48,872] {dagrun.py:430} ERROR - Marking run <DagRun nyc_taxi_dataset_dag @ 2020-04-01 00:00:00+00:00: backfill__2020-04-01T00:00:00+00:00, externally triggered: False> failed [2021-04-21 21:38:48,879] {backfill_job.py:388} INFO - [backfill progress] | finished run 1 of 1 | tasks waiting: 0 | succeeded: 1 | running: 0 | failed: 2 | skipped: 0 | deadlocked: 0 | not ready: 0

VIOLA, upstream_failed означает, что таск, запущенный перед to_parquet завершился неудачно. Можно попробовать очистить состояние через Clear state у неудачных запусков TaskInstance.

Адиль, спасибо! Уже разобрался с причиной ошибки !

Не проходит запрос почему-то. В подключении вроде всё ок, но всё равно ошибка... [2021-06-03 12:24:07,588] {http.py:106} INFO - Calling HTTP method [2021-06-03 12:24:07,595] {base.py:74} INFO - Using connection to: id: nyc_yellow_taxi_id. Host: https://s3.amazonaws.com/nyc-tlc/trip+data/, Port: None, Schema: , Login: airflow, Password: XXXXXXXX, extra: None [2021-06-03 12:24:07,596] {http.py:140} INFO - Sending 'HEAD' to url: https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2020-04.csv [2021-06-03 12:24:08,224] {http.py:154} ERROR - HTTP error: Bad Request

Попробовал выполнить HEAD запрос к https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2020-04.csv, у меня всё прошло. Попробуйте, пожалуйста, снова запустить, возможно на стороне хоста были временные проблемы? Из сообщения вижу, что ответ был Bad Request, что странно.

https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page как будто, уже всё в паркете

все файлв уже в формате parquet. И их уже так не скачаешь автоматизировано вроде бы, я попыталась, но у меня не получилось