- Опубликовано
Иногда приходится¹ копаться² в кишках³ Apache Spark
- Автор
- Имя
- Новости нашего ИТ
- Telegram
- Новости нашего ИТ14 подписчиков5145 постовДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Иногда приходится¹ копаться² в кишках³ Apache Spark
#java
¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует. ² и да, довольно-таки глубоко. ³ нет, серьёзно! Давайте рассмотрим следующий бизнесовый кейс. Дано: реально большие данные. Очень много датасетов по много терабайтов каждый, — в сумме объём тянет на петабайты. Лежат в облаке, но это не важно. Важно, что мы эти данные покупаем в «сыром» виде, каким-то образом «готовим», а потом перепродаём конечному потребителю. Требуется: при подготовке каждого из датасетов разделить его согласно значениям одного или нескольких полей, составляющих его записи, на несколько. И это одна из особенно часто встречающихся в нашем процессе операций. Довольно-таки сложный, продвинутый ETL у нас. Поясню на типичном примере.
Предыдущий пост
- Опубликовано
Как приручить Горыныча: high availability
Из подборки #it_news
- Опубликовано
Создание Ambilight приложения для Android на Java
- Опубликовано
Архитектура факторов ранжирования Ozon runtime
- Опубликовано
How to Find Matched Rules in Drools
- Опубликовано
Небольшой подарок моддерскому коммьюнити от меня
- Опубликовано
Java Type Erasure: Generics Compromise
- Опубликовано
красные флаги в резюме мешают работе мечты
Свежие посты
- Опубликовано
Model Context Protocol на Go: 100K ops/sec
- Опубликовано
Создать Telegram‑бот погоды за 5 минут Nyagram
- Опубликовано
Регуляторные документы РФ по ИИ в 2026 году
- Опубликовано
Spring Shell 4.0.1 is out!
- Опубликовано
CDC своими руками: Kafka + Debezium в лаборатории
- Опубликовано
Kafka: обработка ошибок и Dead Letter Queues
- Опубликовано
Создание Ambilight приложения для Android на Java
- Опубликовано