- Опубликовано
Обзор UDTF в PySpark
- Автор

- Имя
- Новости нашего ИТ
- Telegram
Новости нашего ИТ12 подписчиков4749 постовДанный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Обзор UDTF в PySpark
#databases
Привет, Хабр! Сегодня разберём фичу из PySpark — UDTF. Если раньше мы писали UDF и UDAF, то UDTF — это про функцию, которая запускается в секции FROM запроса и возвращает как бы несколько стро» для каждой входной записи Звучит круто. UDTFs пригодятся, когда на один входной объект нужно получить множество выходных строк. Простой пример: у нас есть строка текста и мы хотим разделить её на слова так, чтобы каждое слово вышло отдельной строкой. Со стандартным UDF такое не сделать (он возвращает одно значение, например конкатенацию или длину). Но UDTF может делать цикл yield внутри и выдавать сколько угодно строк. Итак, приступим к делу.
Новости нашего ИТ
12 подписчиков
4749 постов
Данный канал является агрегатором технических статей нашего любимого ИТ, так что кто устал листать тысячи сайтов в поиске технических статей присоеденяйтесь к каналу и наслаждайтесь #it_news
Предыдущий пост
- Опубликовано
Работа со временем в Java: Instant и long
как использовать Java Instant и long для работы с временем
Следующий пост
- Опубликовано
Security Week 2536: эволюция уязвимостей Q2 2025
Эволюция уязвимостей во втором квартале 2025 года
Из подборки #databases
- Опубликовано
OpenMedata в облаке: DataGovernance обзор Collate 1
OpenMedata в облаке Data Governance обзор Collate часть 1
- Опубликовано
Java PostgreSQL Query Cancellation Explained
Как отменить запрос PostgreSQL в Java?
- Опубликовано
Как написать линтер для SQL-миграций
Как написать линтер для SQL миграций
- Опубликовано
Как документировать разработку ERP-платформы. Часть 2
Как документировать ERP‑платформу часть 2 ADR Vision SRS
- Опубликовано
Почему SQLite наконец выглядит современно
Почему SQLite выглядит современно
- Опубликовано
Хотят многие, делают единицы: наш опыт автоматизации рутины пентеста
автоматизация рутины пентеста: опыт Positive Technologies, решения проблем с Masscan, Kerbrute, Impacket
Свежие посты
- Опубликовано
Kafka
+1
Удобная синхронизация настроек Kafka
Удобная синхронизация настроек Kafka в кластере
- Опубликовано
#java
+1
Spring Data 2025.1.2 и 2025.0.8 released
Spring Data 2025.1.2 и 2025.0.8: релиз и новые возможности
- Опубликовано
#devops
+1
How Ansible does the real work in hyperautomation
Как Ansible реализует реальную работу в гиперавтоматизации?
- Опубликовано
OpenMedata в облаке: DataGovernance обзор Collate 1
OpenMedata в облаке Data Governance обзор Collate часть 1
- Опубликовано
#docker
+1
Python без Python: как запускать код где угодно
как запускать Python код где угодно без установки
- Опубликовано
#docker
+1
Хакатон Норникеля: YOLO, 2 место
Хакатон Норникеля YOLO 2 место как выиграть
- Опубликовано
#devops
+1
Nginx с человеческим лицом: обзор Nginx Proxy Manager
обзор Nginx Proxy Manager для новичков DevOps
- Опубликовано
От поэзии к нейробиологии: проверка метафор любви
Научная проверка метафор любви в поэзии и нейробиологии