Подписаться
Опубликовано

ETL с Superset, Airflow и ClickHouse

Автор
  • Имя
    Новости нашего ИТ
    Telegram

Основы ETL на примере работы с Superset, Airflow и ClickHouse #databases В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения. В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries. Для извлечения данных мы будем использовать Python-библиотеки selenium и BeautifulSoup — они хорошо подходят для парсинга веб-страниц. Дополнительно применим re для обработки текстовой информации с помощью регулярных выражений.

link

Новости нашего ИТ
14 подписчиков
5145 постов
Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Из подборки #databases

Свежие посты