Новости нашего ИТ логотип
Подписаться
Опубликовано

Оптимизации функционала Apache Iceberg в задачах real-time загрузки и обработки данных

Автор

Оптимизации функционала Apache Iceberg в задачах real-time загрузки и обработки данных #Kubernetes Привет, Хабр! На связи — технические лидеры направления разработки Apache Spark в составе платформы Data Ocean Андрей Первушин и Дмитрий Паршин из Data Sapience. Мы занимаемся решением нетривиальных задач в области Spark-вычислений, некоторые из которых становятся частью конечного продукта. Сегодня мы расскажем, с какими проблемами можно столкнуться при реализации Upsert Streaming в Iceberg, что такое equality delete, почему они создают нагрузку при чтении таблиц в Apache Iceberg и как мы оптимизировали Apache Spark, чтобы снизить потребление памяти и ускорить чтение данных.

link

avatar
Новости нашего ИТ
12 подписчиков
4751 пост
Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news

Свежие посты