- Опубликовано
Иногда приходится¹ копаться² в кишках³ Apache Spark
- Автор

- Имя
- Новости нашего ИТ
- Telegram
Новости нашего ИТ12 подписчиков4738 постовДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Иногда приходится¹ копаться² в кишках³ Apache Spark
#java
¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует. ² и да, довольно-таки глубоко. ³ нет, серьёзно! Давайте рассмотрим следующий бизнесовый кейс. Дано: реально большие данные. Очень много датасетов по много терабайтов каждый, — в сумме объём тянет на петабайты. Лежат в облаке, но это не важно. Важно, что мы эти данные покупаем в «сыром» виде, каким-то образом «готовим», а потом перепродаём конечному потребителю. Требуется: при подготовке каждого из датасетов разделить его согласно значениям одного или нескольких полей, составляющих его записи, на несколько. И это одна из особенно часто встречающихся в нашем процессе операций. Довольно-таки сложный, продвинутый ETL у нас. Поясню на типичном примере.
Предыдущий пост
- Опубликовано
Как приручить Горыныча: high availability
Следующий пост
- Опубликовано
повышаем качество документации с помощью LLM
Из подборки #it_news
- Опубликовано
OpenMedata в облаке: DataGovernance обзор Collate 1
- Опубликовано
Сеть вместо SD: собрать Linux для Raspberry Pi
- Опубликовано
Язык моделирования ИТ-инфраструктуры
- Опубликовано
Bank-in-a-Box: собрать песочницу для API‑хакатона
- Опубликовано
Из чего состоят промышленные сети
- Опубликовано
Project Panama: Java говорит на C (Часть 1)
Свежие посты
- Опубликовано
Удобная синхронизация настроек Kafka
- Опубликовано
Spring Data 2025.1.2 и 2025.0.8 released
- Опубликовано
How Ansible does the real work in hyperautomation
- Опубликовано
OpenMedata в облаке: DataGovernance обзор Collate 1
- Опубликовано
Python без Python: как запускать код где угодно
- Опубликовано
Хакатон Норникеля: YOLO, 2 место
- Опубликовано
Nginx с человеческим лицом: обзор Nginx Proxy Manager
- Опубликовано