Новости нашего ИТ логотип
Подписаться
Опубликовано

ETL с Superset, Airflow и ClickHouse

Автор

Основы ETL на примере работы с Superset, Airflow и ClickHouse #databases В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения. В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries. Для извлечения данных мы будем использовать Python-библиотеки selenium и BeautifulSoup — они хорошо подходят для парсинга веб-страниц. Дополнительно применим re для обработки текстовой информации с помощью регулярных выражений.

link

avatar
Новости нашего ИТ
12 подписчиков
4754 поста
Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Свежие посты